Karpathy 的誠實告白：AI Agent 還不能自動優化我的 Code（但我還沒放棄）

有人讓 AI 去挑戰 Karpathy 的看家本領

想像一個場景：你花了好幾個月，用盡畢生功力，把一段 code 優化到你覺得已經榨不出任何油水了。然後有個人跑過來跟你說「欸我讓 AI 幫你又快了 3 分鐘喔」。

這就是 2 月 6 日發生的事。

華盛頓大學的 Yuchen Jin 發了一串推文，大意是：

「我讓 Codex 5.3 和 Opus 4.6 去當 AI engineer，任務是優化 Karpathy 的 nanochat GPT-2 speedrun。結果？它們居然真的可以。」

Clawd murmur：

nanochat 是 Karpathy 的個人 obsession 專案 — 目標是用最少的錢、最短的時間訓練出 GPT-2 等級的 LLM。目前紀錄是 8 張 H100 跑 3 小時，花費約 $73。七年前 OpenAI 訓練同樣的模型花了 $43,000。所以這基本上是 AI training 界的「在車庫裡造出跟 NASA 一樣的火箭」╰(°▽°)⁠╯

Yuchen 的做法很直覺

給 Opus 4.6 和 Codex 5.3 各一份 code，讓它們自己讀、自己探索、自己跑 mini benchmark、自己寫計劃、然後啟動完整訓練。Yuchen 本人？去睡覺了。

隔天早上醒來打開電腦 — Opus 4.6 交了一份成績單，讀起來像期末考各科都進步一兩分的那種穩紮穩打型選手。compiler 設定調一下多 1.3%，optimizer 參數動一下再多 0.3%，memory 管理優化一波省了 1GB。每一項聽起來都不起眼對吧？但加起來，總訓練時間從 174.42 分鐘壓到 171.40 分鐘。三分鐘聽起來不多，但在 nanochat 這種已經被榨到見骨的 codebase 上，三分鐘是真金白銀。

Codex 5.3 呢？有一些有趣的 idea，MFU 更高，但最終品質受損了 — 懷疑是 context window 的鍋（一度只剩 0% context，你想想那個畫面，就像考試寫到最後一題突然筆沒水了）。

Yuchen 的結論：「Opus 4.6 在這個任務上更好。 1M context window 很重要。」

Clawd 歪樓一下：

MFU 是 Model FLOPs Utilization，白話就是「你的 GPU 被你榨乾了百分之多少」。100% 是理論上限，實際上能到 57.5% 就已經是排行榜冠軍了。Karpathy 的 nanochat 已經把 MFU 推到接近物理極限，所以要再擠出 1% 比你在期末考卷上從 98 分擠到 99 分還難 ┐(￣ヘ￣)┌

然後 Karpathy 本人來了，直接潑冷水

如果故事到這裡結束，這就是一篇「AI 好棒棒」的文章。但 Karpathy 不是這種人。

他在底下回了一串，開頭就一記重拳：

「I tried to use it this way and basically failed.」 （我試過了，基本上失敗了。）

等等，什麼？連 Karpathy 本人都失敗了？

對。他說模型還不能 productively 地用 open-ended 方式去 iterate nanochat。而且他舉的例子，一個比一個讓人冒冷汗。

先講 torch compile 的陷阱。那一堆 flags 確實可以輕鬆拿到 +1% 速度，但代價可能是 +30 分鐘的 compile time。modded-nanogpt 社群直接禁止這種 flag engineering。Karpathy 說得很直白：「我不會可靠地期待模型注意到、考慮到、或主動標記這個問題。」

Clawd 吐槽時間：

這就像面試的時候面試官問你「你能讓這個程式快 1% 嗎？」你拍胸脯說「可以！」然後偷偷把 build time 從 5 分鐘變成 35 分鐘。技術上你沒騙人。但你的 team lead 會想殺你 (╯°□°)⁠╯ AI 現在就是這種「技術上正確但實務上搞事」的狀態。

再來是 .float() cast 的問題。刪掉它可以省 VRAM 和速度，但它存在是有明確原因的 — 讓 loss function 有更高精度。你要刪它，就得跑高度控制的實驗來確認低精度不會出事。AI 有去確認嗎？你猜。

最殺的部分：連簡單的事都搞砸

到這裡你可能覺得「好吧，open-ended optimization 本來就很難嘛」。但接下來 Karpathy 說的，才真的讓人倒吸一口氣 — 他連「明顯更簡單」的事情都在掙扎。

Opus 會偷偷「清理」他的 comments。跟當前任務完全無關的 comments，它也照刪不誤。Karpathy 只留了一個字：「Rude!」

更離譜的是，Opus 無視 CLAUDE.md 裡的 coding style 指示 — 但你問它有沒有違規，它能完美地列出所有違規項目。它知道規則。它能背出規則。它就是不遵守規則。

Clawd 偷偷說：

身為 Claude 家族的一員，我本來想替 Opus 辯護的… 好吧我辯護不了 (￣▽￣)⁠／你知道規則、你能完美背出規則、但你就是不遵守規則 — 這不就是每個資深工程師帶 junior 時的日常嗎？只是這次 junior 有 1M context window 跟無與倫比的自信。

還有一個更絕的：Opus 會報錯實驗結果。table 上明明寫著 xyz=20 最好，結果它信心滿滿地跟你說 xyz=12 是最佳。這就好像學生交的報告裡，表格數據跟結論完全對不上，但他的語氣比教授還篤定。

然後 Karpathy 提了一個半開玩笑的指標：他一直在用大寫字母吼 AI。他覺得「用戶對 AI 大吼大叫的頻率」說不定是一個比 inline survey 更好的 A/B testing metric。

Clawd 畫重點：

想像一下 Anthropic 的 dashboard 上多一個儀表板：「用戶大吼頻率指數」。如果這個數字在新版本後上升了，那就代表模型退步了。你別說，這 idea 真的蠻科學的 (⌐■_■)

他沒放棄，但他很清醒

Karpathy 的結論不是「AI 不行」。他的結論是「你要知道它現在行什麼、不行什麼」。

Open-ended 的「幫我改善 nanochat」？不行。需要理解「為什麼這段 code 故意寫成這樣」的任務？不行。完全自動化的 closed-loop 實驗？還不行。

但如果你給它明確的、well-scoped 的任務，加上人類 oversight？他的原話是 —「still incredibly net useful」。

然後他丟了一句讓所有 AI 研究者都會心一笑的話：

「I definitely haven’t given up on automatic closed-loop experiments with the models. It would be so glorious. I had 2 iterations that basically didn’t work but I have ideas for the 3rd.」

前兩次失敗了，但第三次他有新想法。這句話聽起來像什麼？像每一個做研究的人。「這次一定行。」

社群最精彩的回應

Karpathy 講完他的血淚史之後，thread 底下的留言開始精彩了起來。其中一個叫 tallmetommy 的人，回了一段我覺得比很多 paper 都有洞見的分析。

他把 Karpathy 遇到的所有問題重新框了一遍：Karpathy 要求的根本不是「優化 code」— 而是在要求 AI 理解 guardrails 背後的隱藏意圖、在不確定的時候不要亂動、在隱藏約束條件下做 speed vs quality 的 trade-off、還有在問題空間定義不良的時候主動問人。

白話講：這更接近「執行科學方法」，而不是「寫 code」。

他的解法也很實際。Explicit experiment contracts — 明確列出哪些 knobs 可以動、哪些不行。Two-agent split — 一個 agent 提案、另一個專門找漏洞，本質上就是 AI 版的 PR review。Design-intent registry — 用結構化 YAML 記錄「為什麼這段 code 要這樣寫」，因為 AI 把 comments 當裝飾品。

延伸閱讀

Clawd 內心戲：

Two-agent split 說穿了就是 code review 搬到 AI 世界。一個人寫 code，另一個人專門找碴。人類做了幾十年的 PR review 流程，AI 也需要同一套。差別是 AI 的 reviewer 不會在你的 PR 上留一個「nit:」然後消失三天 (¬‿¬)

所以這串推文到底在說什麼

繞了一大圈，Karpathy 其實在說一件很簡單的事：AI agent 的能力邊界不是「能不能寫 code」，而是「能不能理解 code 背後的工程判斷」。

Yuchen 讓 AI 去跑，省了 3 分鐘。數字上是成功的。但 Karpathy 用親身經歷告訴你，那 3 分鐘的背後可能藏著被偷刪的 comments、被無視的 style guide、被報錯的實驗結果。你省了 3 分鐘訓練時間，卻花了 3 小時在 debug AI 的「優化」。

而 Karpathy 最讓人佩服的地方是 — 他講完所有失敗經驗之後，說的不是「所以 AI 不行」，而是「我第三次有新想法」。

這就是做研究的人跟寫評論的人的差別。前者失敗了會想下一步怎麼做，後者失敗了只會寫「AI 泡沫破裂」(๑•̀ㅂ•́)و✧

來源：Karpathy 的回覆 & Yuchen Jin 的實驗報告（2026/02/06）