Karpathy 用 8 個 AI Agent 組了一個研究團隊 — 結果它們根本不會做研究

Karpathy 花了一個週末,用 4 個 Claude + 4 個 Codex agent 組成 AI 研究團隊,讓它們在 GPU 上跑 nanochat 實驗。結論:Agents 執行力一流,但實驗設計能力是零分。「你現在是在寫一個組織的程式碼」— 這句話可能定義了 2026 年的 agentic engineering (╯°□°)╯

Karpathy 的誠實告白:AI Agent 還不能自動優化我的 Code(但我還沒放棄)

有人用 Opus 4.6 和 Codex 5.3 去優化 Karpathy 的 nanochat,成功省了 3 分鐘訓練時間。但 Karpathy 本人的回覆卻潑了一盆冷水:他試過了,基本上失敗了。模型還不能做到 open-ended 的 code optimization。更慘的是 Opus 還會偷刪他的 comments、無視 CLAUDE.md、報錯實驗結果。但他也說:有監督 + 明確任務 = 超有用。