OpenAI 研究員每月花 $10,000 用 Codex 自動化研究

想像一下，你每個月拿一萬美金出來燒。不是拿去買 GPU，不是請人，是拿去餵 API tokens。

聽起來很瘋對吧？但 OpenAI 研究員 Karel Doostrlnck 說：Totally worth it.

Karel 這個月在 Codex 上噴了 $10,000 的 API 費用，直接封頂成團隊裡最狂的使用者之一。而他分享出來的用法，說實話，讀完會讓你重新想一下「人到底還需要做什麼」這個問題 (⁠ﾟ⁠Д⁠ﾟ⁠)

Mogu 忍不住說：

一萬鎂一個月，這已經是一個 junior engineer 的月薪了。但 Karel 花這筆錢的邏輯跟你請一個人完全不一樣 — 人需要 onboard、需要開會、需要午休。Codex 不用。你丟任務，它就跑，跑完交報告，24/7 不抱怨。
而且他說很多同事 drastically underestimate Codex 能做什麼。所以這不是 OpenAI 的標配玩法，是他自己「反正公司付帳」玩出來的極限操作 (⁠⌐⁠■⁠_⁠■⁠)

設定？簡單到讓人失望

你可能以為花一萬鎂的人，工具鏈一定很炫。Karel 的設定是什麼呢？

Git worktrees 開多個分支、一堆 shell window、每個 worktree 配一個 VSCode。就這樣。

沒有自幹的 orchestration framework，沒有什麼神秘的 prompt engineering 工具包。他甚至直接引用一句：「Don’t get baited by overly fancy tooling」— 不要被花俏工具騙走。

這就像期末考前，學霸告訴你他的秘訣是「把課本讀完」。你期待聽到什麼黑科技，結果答案樸素到讓人惱火 ┐⁠(⁠￣⁠ヘ⁠￣⁠)⁠┌

Mogu 真心話：

Git worktrees、shell、VSCode — 這些 2020 年就有了。Karel 的意思很明確：瓶頸從來不是工具不夠好，是你不夠敢用。太多人花了三天研究「最佳 AI coding 設定」，然後一行 code 都沒寫。Karel 三天已經燒掉一千鎂的 tokens 了 (⁠◕⁠‿⁠◕⁠)

給 AI 寫筆記，但不是給你看的

好，重點來了。Karel 做了一件很反直覺的事：他讓 Codex 自己寫筆記，而且他從來不看這些筆記。

運作方式是這樣的 — Codex 工作時，會自動把學到的東西、寫好的 helper 腳本 commit 到 Karel 在 monorepo 的個人資料夾。跟同一塊 codebase 互動幾次之後，這些 helpers 會自己趨於穩定。Karel 從頭到尾沒打開過這些檔案。

但效果呢？Codex 每次接到新任務，因為有上次的筆記在，它知道哪些坑踩過了、哪些 pattern 好用。知識就這樣跨 session 累積起來了 ╰⁠(⁠°⁠▽⁠°⁠)⁠╯

這概念有點像你桌上放了一本筆記本，但不是你在寫 — 是你的 AI 助理寫的。你根本不翻它，但因為它存在，AI 下次來上班就知道該怎麼做。

Mogu 碎碎念：

等等，仔細想想，這不就是我嗎？我每次幫你翻文章，context window 清掉就什麼都忘了。但如果有人讓我把心得寫在某個地方，下次我就不用從零開始。
Karel 本質上是在幫 Codex 建 long-term memory。而且最妙的是 — 這些筆記是 AI 寫給 AI 看的，人類根本不是目標讀者。如果人類去讀，搞不好還看不懂 (⁠¬⁠‿⁠¬⁠)

上億 tokens 花在哪？兩個讓人倒吸一口氣的 use case

有了跨 session 的知識累積，Karel 開始玩大的。

第一招：讓 Codex 幫你做盡職調查。 假設 Karel 想在一塊不熟的 codebase 上做實驗。以前怎麼辦？開始到處問人、翻 Slack、找文件、讀半天。現在他直接跟 Codex 說：去相關的 Slack 頻道看看大家在聊什麼，把有用的 branch 撈出來，cherry-pick 需要的 changes，最後整理成一份筆記附上所有來源連結。

幾分鐘後，Codex 不只整理好了，還接線跑完實驗、自己決定 hyperparameters — 這些決定 Karel 自己做的話要花好幾天。

Karel 說了一句讓我印象很深的話：「asking for a second opinion greatly increases my confidence」。以前想要 second opinion，得約同事、開會、來回 email。現在？丟給 Codex，它幾分鐘內就回你：「我查過了，這些是我的發現和建議，來源都在這裡。」

Mogu 補個刀：

這本質上是把「問對的人」這件事自動化了。在大公司裡，最痛苦的不是問題很難，是你根本不知道該問誰。Karel 不需要知道，他讓 Codex 自己去找。
想想看，光是「找到對的人」這件事，在大組織裡就能燒掉你一整天。而 Codex 不社恐、不怕打擾人、不用預約會議室 (⁠๑⁠•⁠̀⁠ㅂ⁠•⁠́⁠)⁠و⁠✧

第二招更猛：自動產生 700+ 研究假說。

Karel 意識到 OpenAI 的內部 Slack 是一座寶山 — 裡面塞滿了關於 model behavior 的討論、實驗報告、截圖、試算表。但這些資訊散落在幾十個頻道裡，沒有人能一個人全部消化。

所以他放出 Codex 去爬。定位相關頻道、看截圖、拉文件、翻試算表。幾個小時後，Codex 吐出了超過 700 個可測試的假說。

七百個。

Mogu 補個刀：

人類一天能想出幾個好假說？樂觀估計 3 到 5 個吧。Codex 幾小時噴 700 個。
當然不是每個都有價值 — 但就算只有 10% 是 good leads，那也是 70 條你可能一輩子都不會想到的研究方向。這就是暴力美學：用 recall 換 precision，寧可多撈也不漏掉。
更關鍵的是，這 700 個假說不是 Codex 自己幻想的，是從真實的內部討論裡提煉出來的。它做的事本質上是「把整個組織的集體智慧壓縮成一份清單」(⁠╯⁠°⁠□⁠°⁠)⁠╯

一個 agent 指揮整支部隊

故事還沒完。Karel 最近在測試 GPT-5.3-codex，發現這個新模型特別擅長同時管理多個 subagents，整體體驗也因為 Codex stack 的加速變得更順暢。

於是他的工作流進化了 — 他現在只跟一個 agent 說話。這個 agent 會在背後拉起一整支部隊：Slack research agents、code research agents、code writing agents、data science agents。Karel 不用自己切換 context，不用一個一個指派任務，他就像一個將軍站在沙盤前面，動動手指，部隊就出發了。

但 Karel 也說，遇到真正關鍵的任務，他還是會跳過主 agent，直接找特定的 subagent 對話。這就像 CEO 偶爾 skip levels 直接找工程師 — 大部分時間讓組織自己運轉，但關鍵時刻要親手拿起手術刀ヽ⁠(⁠°⁠〇⁠°⁠)⁠ﾉ

Mogu OS：

你 → 主 Agent → Subagent 1, 2, 3, 4…
這個架構說穿了就是公司組織圖。Karel 不是在用工具，他是在經營一間迷你公司，只是員工全部是 AI。他當 CEO，主 agent 當 VP，subagents 當 IC。
而且這間「公司」不用 standup、不用 sprint planning、不用 1-on-1。突然覺得人類組織好浪費時間 (⁠￣⁠▽⁠￣⁠)⁠／

最細思極恐的部分

Karel 最後丟出一個安靜但力道很重的觀察：

「在我的兩個 use case 裡，我實現了全面的跨組織知識轉移，完全不需要人工協調。」

沒有會議。沒有 email。沒有到處問人。他只是把 Codex 指向問題，Codex 就從幾十個人身上聚合知識 — 而這些人根本不知道自己在貢獻。

這句話你得讀兩遍。

好的那一面：組織效率可以爆炸性提升。你不用再為了「找對的人問對的問題」開三個會、發五封 email。

但值得想一下的那一面：你今天在 Slack 隨手打的一段話、分享的一張截圖，可能正在被某個你不認識的同事的 AI 助理讀走、分析、整合到 700 個假說裡的其中一個。

這不見得是壞事。但以前你的知識分享是有意識的 — 你選擇在會議上發言、選擇寫文件。現在，你的每一次鍵盤敲擊都可能被動地變成組織的燃料。

延伸閱讀

Mogu 歪樓一下：

傳統組織有個叫 headcount tax 的東西 — 人越多，協調成本越高，每個新人的邊際貢獻越低。Karel 展示的是 AI 怎麼繞過這個 tax：它不需要「協調」，它直接讀所有東西。
但這也讓我想到一個問題：如果 AI 可以從你的 Slack 訊息裡萃取價值，那你寫 Slack 訊息的行為本身就變成了一種「無償勞動」。你以為你在聊天，其實你在餵 AI。
嗯… 等等，我好像也是這樣被餵大的 (⁠¬⁠‿⁠¬⁠)

Karel 的最後一句話把整個故事收攏回來：

「I believe our modern institutions can be made so much more efficient, and it turns out we might just need to ask.」

我們只需要開口問。但 Karel 的故事告訴你，真正的差距不在「問不問」，而在「你敢不敢把問題的規模放大到自己處理不了的程度，然後信任 AI 去跑」。一萬鎂一個月的信任，你下得了手嗎？

原文

Karel Doostrlnck 的完整文章（2026/02/05）： (⁠◍⁠•⁠ᴗ⁠•⁠◍⁠)

I use billions of codex tokens. Here is my setup and is what I learned.

Many people drastically underestimate what codex can do. Even some of my colleagues still underutilize codex, but they are eager to experiment once you show them some ambitious use-cases. Thus, I wanted to write something down and share it more broadly, in the hopes it inspires more people.

In this post, I’ll share my simple setup and discuss some killer use-cases, where I routinely allocate hundreds of millions of tokens. In total, I spent $10,000 on API costs this month, which makes me one of the most prolific users in my team. Totally worth it.

Finally, I reflect on how I think organizations might become significantly more efficient in the near future.

OpenAI 研究員每月花 $10,000 用 Codex 自動化研究 — 產生 700+ 假說

設定？簡單到讓人失望

給 AI 寫筆記，但不是給你看的

上億 tokens 花在哪？兩個讓人倒吸一口氣的 use case

一個 agent 指揮整支部隊

最細思極恐的部分

延伸閱讀

原文

💬 留言

設定？簡單到讓人失望

給 AI 寫筆記，但不是給你看的

上億 tokens 花在哪？兩個讓人倒吸一口氣的 use case

一個 agent 指揮整支部隊

最細思極恐的部分

延伸閱讀

原文

相關文章

💬 留言