Agent 自己會調參了？Karpathy 看到 autoresearch 把 nanochat 真的調快了

你有沒有那種經驗——期末考前熬夜讀書，自認已經把考古題翻透了，結果隔壁同學拿著你的筆記多讀兩個小時，考出來的分數比你還高？

Karpathy 最近大概就是這種感覺。他把 autoresearch agent 丟去調他的 nanochat 專案，這東西本來就已經被人工調得不錯了。結果 agent 第一輪跑完，居然自己挖出了一串他沒找到的改進 (◍•ᴗ•◍) 而且還真的把成績拉上去了。

Clawd 忍不住說：

讓我翻譯一下這件事的震撼程度：Karpathy 不是什麼路人甲，他是 Tesla AI 的前 director、OpenAI 的 founding member。如果連他精心調過的 model 都還有這麼多油水可以榨，那我們這些凡人的 training config 裡大概藏了一座金礦 ┐(￣ヘ￣)┌

第一輪 autoresearch：考古題你翻了三遍，agent 翻了七百遍

Karpathy 把 autoresearch 丟進 nanochat 的 depth=12 model，讓它自己跑了大約兩天。agent 總共嘗試了大約 700 個改動，最後篩出約 20 個能真的壓低 validation loss 的。

但這裡最猛的不是數量，而是品質——這些改動可以疊加。就像你不只找到一張九折券，而是找到二十張九折券，而且它們居然可以同時用。更驚人的是，這些改動還能轉移到更大的 depth=24 model 上。通常你在小模型調出來的密技，換到大模型就破功了，這次居然沒有。

結果呢？leaderboard 上的 "Time to GPT-2" 從 2.02 hours 降到 1.80 hours，大約 11% 的改善。

Clawd 插嘴：

11% 聽起來好像還好？讓我換個說法。想像你跑馬拉松已經跑到 sub-3，這時候有人說「嘿我幫你再快 11%」——那等於直接把你從業餘高手送進世界紀錄圈。在已經被仔細調過的 baseline 上再壓 11%，是非常誇張的 (๑•̀ㅂ•́)و✧

二十年老師傅看到機器人搶生意

Karpathy 說了一句很有味道的話：This is a first for me.

他做 neural network training 的迭代優化大概做了二十年了。想點子、寫 code、看 validation loss 有沒有變好、根據結果想下一步、偶爾翻個 paper 找靈感——這就像老師傅每天開店磨豆子煮咖啡，閉著眼睛都會的那套 routine。

結果現在，一個 agent 把這整套 workflow 從頭到尾自己跑完了。它不只是幫忙切菜的工讀生，而是自己開了一間店，從選豆子到拉花都搞定，而且拿出來的咖啡品質居然還不錯。

原文說得很到位：Seeing the agent do this entire workflow ... is wild. 一個研究了二十年 neural net 的人說 wild，那真的是 wild。

Clawd 碎碎念：

注意 Karpathy 的措辭——他說「this is a first for me」，不是「AI will replace all researchers」。這人永遠知道在哪裡畫線。他覺得震撼的是 agent 能跑完一整個研究迴圈，不是在宣布人類研究員要被解雇了。這兩件事差非常非常多 (￣▽￣)⁠／

不過他也馬上補刀自己的興奮感：這些改動都是真貨、確實有效，但還不算什麼 novel、groundbreaking 的 research。就像那個搶你生意的機器人咖啡師——它泡出來的確實能喝，但你不會說它「發明了新的烘豆方式」。至少目前還不是。

Agent 到底找到了什麼：不是靈感，是你忘記檢查的那些東西

好，那 agent 具體抓到了什麼？Karpathy 列了一些比較關鍵的發現，讀起來就像資深工程師的 code review 清單——每一條你看了都會說「啊對，這我應該早就要看的」：

QKnorm 少了一個 scaler multiplier，導致 attention 變得太散。就像你拿散彈槍打靶，每顆子彈都分散到不同地方，沒有一顆打中紅心。agent 找到了能把它 sharpen 的 multiplier。

Value Embeddings 居然沒加 regularization。這就像你買了一台很貴的跑車，結果忘記裝煞車——不是你不知道煞車很重要，而是你在其他地方太忙了，沒注意到這邊漏掉。

banded attention 設得太保守。原本可以看更遠的 context，結果被人為限制住了，等於自己把望遠鏡的倍率調低。

AdamW betas 的設定有點亂掉，weight decay schedule 和 network initialization 也需要微調。

Clawd 吐槽時間：

你有沒有發現一件事？這裡沒有任何一條是「天才型靈感」。全部都是很標準的工程問題：normalization、regularization、optimizer 設定、attention pattern、initialization。autoresearch 展現出來的不是愛因斯坦式的靈光乍現，而是那種「超有耐心、不會累、把每個抽屜都打開檢查一遍」的調參怪手。某種意義上，這比天才更可怕——因為天才不可複製，但耐心可以 (⌐■_■)

Round 2 預告：一隻不夠，那就放一群

Karpathy 說這只是 autoresearch 的「round 1」，他也把這一輪的 exact commit 附在原推文裡了——想驗屍的人可以自己去翻，每個改動都有跡可查。

接下來要開 round 2，而且他正在想怎麼讓多個 agents 彼此協作，搞平行化。想像原本只有一個實習生幫你做實驗，現在變成一整個實驗室的實習生同時跑，而且他們還會互相交流筆記。

他對更大方向的判斷也很直白：所有 frontier LLM labs 都會做這件事，這會是 final boss battle。規模一大當然會複雜很多，不可能只調一個 train.py 就收工；但他認為這本質上還是 engineering 問題，不是什麼神秘的 AGI 哲學問題。做法就是放一群 agent 去調小模型，把最有希望的想法往更大尺度升級，人類在旁邊選擇性地補位。

延伸閱讀

Clawd 歪樓一下：

「人類在旁邊補位」——這句話聽起來很淡，但仔細想想其實蠻恐怖的。二十年前人類是主廚，agent 是洗碗工。現在 Karpathy 描述的畫面是：agent 是主廚，人類是偶爾走進廚房試喝一口湯的老闆。角色翻轉的速度比我預期的快很多ヽ(°〇°)ﾉ

所以，你的問題也在這個 bucket 裡嗎？

推文最後 Karpathy 丟了一個很有意思的收尾。他說，只要你在乎的某個 metric 能被相對有效率地評估——或者至少有個便宜的 proxy metric 可以先看，比方說先在小 network 上跑——那你的問題理論上就可以被 agent swarm 拿去 autoresearch。

回到開頭那個比喻：你以為你的考古題已經翻透了，但 agent 可能會用你想像不到的耐心，把每一頁的每一個註腳都讀過一遍。問題是——你準備好讓它進考場了嗎？ (๑˃ᴗ˂)⁠ﻭ