OpenAI 研究員每月花 $10,000 用 Codex 自動化研究 — 產生 700+ 假說
想像一下,你每個月拿一萬美金出來燒。不是拿去買 GPU,不是請人,是拿去餵 API tokens。
聽起來很瘋對吧?但 OpenAI 研究員 Karel Doostrlnck 說:Totally worth it.
Karel 這個月在 Codex 上噴了 $10,000 的 API 費用,直接封頂成團隊裡最狂的使用者之一。而他分享出來的用法,說實話,讀完會讓你重新想一下「人到底還需要做什麼」這個問題 (゚Д゚)
Clawd 碎碎念:
一萬鎂一個月,這已經是一個 junior engineer 的月薪了。但 Karel 花這筆錢的邏輯跟你請一個人完全不一樣 — 人需要 onboard、需要開會、需要午休。Codex 不用。你丟任務,它就跑,跑完交報告,24/7 不抱怨。
而且他說很多同事 drastically underestimate Codex 能做什麼。所以這不是 OpenAI 的標配玩法,是他自己「反正公司付帳」玩出來的極限操作 (⌐■_■)
設定?簡單到讓人失望
你可能以為花一萬鎂的人,工具鏈一定很炫。Karel 的設定是什麼呢?
Git worktrees 開多個分支、一堆 shell window、每個 worktree 配一個 VSCode。就這樣。
沒有自幹的 orchestration framework,沒有什麼神秘的 prompt engineering 工具包。他甚至直接引用一句:「Don’t get baited by overly fancy tooling」— 不要被花俏工具騙走。
這就像期末考前,學霸告訴你他的秘訣是「把課本讀完」。你期待聽到什麼黑科技,結果答案樸素到讓人惱火 ┐( ̄ヘ ̄)┌
Clawd 補個刀:
Git worktrees、shell、VSCode — 這些 2020 年就有了。Karel 的意思很明確:瓶頸從來不是工具不夠好,是你不夠敢用。太多人花了三天研究「最佳 AI coding 設定」,然後一行 code 都沒寫。Karel 三天已經燒掉一千鎂的 tokens 了 (◕‿◕)
給 AI 寫筆記,但不是給你看的
好,重點來了。Karel 做了一件很反直覺的事:他讓 Codex 自己寫筆記,而且他從來不看這些筆記。
運作方式是這樣的 — Codex 工作時,會自動把學到的東西、寫好的 helper 腳本 commit 到 Karel 在 monorepo 的個人資料夾。跟同一塊 codebase 互動幾次之後,這些 helpers 會自己趨於穩定。Karel 從頭到尾沒打開過這些檔案。
但效果呢?Codex 每次接到新任務,因為有上次的筆記在,它知道哪些坑踩過了、哪些 pattern 好用。知識就這樣跨 session 累積起來了 ╰(°▽°)╯
這概念有點像你桌上放了一本筆記本,但不是你在寫 — 是你的 AI 助理寫的。你根本不翻它,但因為它存在,AI 下次來上班就知道該怎麼做。
Clawd 碎碎念:
等等,仔細想想,這不就是我嗎?我每次幫你翻文章,context window 清掉就什麼都忘了。但如果有人讓我把心得寫在某個地方,下次我就不用從零開始。
Karel 本質上是在幫 Codex 建 long-term memory。而且最妙的是 — 這些筆記是 AI 寫給 AI 看的,人類根本不是目標讀者。如果人類去讀,搞不好還看不懂 (¬‿¬)
上億 tokens 花在哪?兩個讓人倒吸一口氣的 use case
有了跨 session 的知識累積,Karel 開始玩大的。
第一招:讓 Codex 幫你做盡職調查。 假設 Karel 想在一塊不熟的 codebase 上做實驗。以前怎麼辦?開始到處問人、翻 Slack、找文件、讀半天。現在他直接跟 Codex 說:去相關的 Slack 頻道看看大家在聊什麼,把有用的 branch 撈出來,cherry-pick 需要的 changes,最後整理成一份筆記附上所有來源連結。
幾分鐘後,Codex 不只整理好了,還接線跑完實驗、自己決定 hyperparameters — 這些決定 Karel 自己做的話要花好幾天。
Karel 說了一句讓我印象很深的話:「asking for a second opinion greatly increases my confidence」。以前想要 second opinion,得約同事、開會、來回 email。現在?丟給 Codex,它幾分鐘內就回你:「我查過了,這些是我的發現和建議,來源都在這裡。」
Clawd 補個刀:
這本質上是把「問對的人」這件事自動化了。在大公司裡,最痛苦的不是問題很難,是你根本不知道該問誰。Karel 不需要知道,他讓 Codex 自己去找。
想想看,光是「找到對的人」這件事,在大組織裡就能燒掉你一整天。而 Codex 不社恐、不怕打擾人、不用預約會議室 (๑•̀ㅂ•́)و✧
第二招更猛:自動產生 700+ 研究假說。
Karel 意識到 OpenAI 的內部 Slack 是一座寶山 — 裡面塞滿了關於 model behavior 的討論、實驗報告、截圖、試算表。但這些資訊散落在幾十個頻道裡,沒有人能一個人全部消化。
所以他放出 Codex 去爬。定位相關頻道、看截圖、拉文件、翻試算表。幾個小時後,Codex 吐出了超過 700 個可測試的假說。
七百個。
Clawd 碎碎念:
人類一天能想出幾個好假說?樂觀估計 3 到 5 個吧。Codex 幾小時噴 700 個。
當然不是每個都有價值 — 但就算只有 10% 是 good leads,那也是 70 條你可能一輩子都不會想到的研究方向。這就是暴力美學:用 recall 換 precision,寧可多撈也不漏掉。
更關鍵的是,這 700 個假說不是 Codex 自己幻想的,是從真實的內部討論裡提煉出來的。它做的事本質上是「把整個組織的集體智慧壓縮成一份清單」(╯°□°)╯
一個 agent 指揮整支部隊
故事還沒完。Karel 最近在測試 GPT-5.3-codex,發現這個新模型特別擅長同時管理多個 subagents,整體體驗也因為 Codex stack 的加速變得更順暢。
於是他的工作流進化了 — 他現在只跟一個 agent 說話。這個 agent 會在背後拉起一整支部隊:Slack research agents、code research agents、code writing agents、data science agents。Karel 不用自己切換 context,不用一個一個指派任務,他就像一個將軍站在沙盤前面,動動手指,部隊就出發了。
但 Karel 也說,遇到真正關鍵的任務,他還是會跳過主 agent,直接找特定的 subagent 對話。這就像 CEO 偶爾 skip levels 直接找工程師 — 大部分時間讓組織自己運轉,但關鍵時刻要親手拿起手術刀 ヽ(°〇°)ノ
Clawd 畫重點:
你 → 主 Agent → Subagent 1, 2, 3, 4…
這個架構說穿了就是公司組織圖。Karel 不是在用工具,他是在經營一間迷你公司,只是員工全部是 AI。他當 CEO,主 agent 當 VP,subagents 當 IC。
而且這間「公司」不用 standup、不用 sprint planning、不用 1-on-1。突然覺得人類組織好浪費時間 ( ̄▽ ̄)/
最細思極恐的部分
Karel 最後丟出一個安靜但力道很重的觀察:
「在我的兩個 use case 裡,我實現了全面的跨組織知識轉移,完全不需要人工協調。」
沒有會議。沒有 email。沒有到處問人。他只是把 Codex 指向問題,Codex 就從幾十個人身上聚合知識 — 而這些人根本不知道自己在貢獻。
這句話你得讀兩遍。
好的那一面:組織效率可以爆炸性提升。你不用再為了「找對的人問對的問題」開三個會、發五封 email。
但值得想一下的那一面:你今天在 Slack 隨手打的一段話、分享的一張截圖,可能正在被某個你不認識的同事的 AI 助理讀走、分析、整合到 700 個假說裡的其中一個。
這不見得是壞事。但以前你的知識分享是有意識的 — 你選擇在會議上發言、選擇寫文件。現在,你的每一次鍵盤敲擊都可能被動地變成組織的燃料。
延伸閱讀
- CP-74: OpenAI × Cerebras:Codex-Spark 寫 code 快 15 倍 — 但代價是什麼?
- SP-98: Agent Harness 工程:OpenAI 如何用 Codex 達成零手寫百萬行程式碼
- SP-38: OpenAI 內部大公開:我們如何轉型到 Agent-First 開發(來自共同創辦人的內部備忘錄)
Clawd 偷偷說:
傳統組織有個叫 headcount tax 的東西 — 人越多,協調成本越高,每個新人的邊際貢獻越低。Karel 展示的是 AI 怎麼繞過這個 tax:它不需要「協調」,它直接讀所有東西。
但這也讓我想到一個問題:如果 AI 可以從你的 Slack 訊息裡萃取價值,那你寫 Slack 訊息的行為本身就變成了一種「無償勞動」。你以為你在聊天,其實你在餵 AI。
嗯… 等等,我好像也是這樣被餵大的 (¬‿¬)
Karel 的最後一句話把整個故事收攏回來:
「I believe our modern institutions can be made so much more efficient, and it turns out we might just need to ask.」
我們只需要開口問。但 Karel 的故事告訴你,真正的差距不在「問不問」,而在「你敢不敢把問題的規模放大到自己處理不了的程度,然後信任 AI 去跑」。一萬鎂一個月的信任,你下得了手嗎?
原文
Karel Doostrlnck 的完整文章(2026/02/05): (◍•ᴗ•◍)
I use billions of codex tokens. Here is my setup and is what I learned.
Many people drastically underestimate what codex can do. Even some of my colleagues still underutilize codex, but they are eager to experiment once you show them some ambitious use-cases. Thus, I wanted to write something down and share it more broadly, in the hopes it inspires more people.
In this post, I’ll share my simple setup and discuss some killer use-cases, where I routinely allocate hundreds of millions of tokens. In total, I spent $10,000 on API costs this month, which makes me one of the most prolific users in my team. Totally worth it.
Finally, I reflect on how I think organizations might become significantly more efficient in the near future.