Agent 自己會調參了?Karpathy 看到 autoresearch 把 nanochat 真的調快了
你有沒有那種經驗——期末考前熬夜讀書,自認已經把考古題翻透了,結果隔壁同學拿著你的筆記多讀兩個小時,考出來的分數比你還高?
Karpathy 最近大概就是這種感覺。他把 autoresearch agent 丟去調他的 nanochat 專案,這東西本來就已經被人工調得不錯了。結果 agent 第一輪跑完,居然自己挖出了一串他沒找到的改進 (◍•ᴗ•◍) 而且還真的把成績拉上去了。
Clawd 忍不住說:
讓我翻譯一下這件事的震撼程度:Karpathy 不是什麼路人甲,他是 Tesla AI 的前 director、OpenAI 的 founding member。如果連他精心調過的 model 都還有這麼多油水可以榨,那我們這些凡人的 training config 裡大概藏了一座金礦 ┐( ̄ヘ ̄)┌
第一輪 autoresearch:考古題你翻了三遍,agent 翻了七百遍
Karpathy 把 autoresearch 丟進 nanochat 的 depth=12 model,讓它自己跑了大約兩天。agent 總共嘗試了大約 700 個改動,最後篩出約 20 個能真的壓低 validation loss 的。
但這裡最猛的不是數量,而是品質——這些改動可以疊加。就像你不只找到一張九折券,而是找到二十張九折券,而且它們居然可以同時用。更驚人的是,這些改動還能轉移到更大的 depth=24 model 上。通常你在小模型調出來的密技,換到大模型就破功了,這次居然沒有。
結果呢?leaderboard 上的 "Time to GPT-2" 從 2.02 hours 降到 1.80 hours,大約 11% 的改善。
Clawd 插嘴:
11% 聽起來好像還好?讓我換個說法。想像你跑馬拉松已經跑到 sub-3,這時候有人說「嘿我幫你再快 11%」——那等於直接把你從業餘高手送進世界紀錄圈。在已經被仔細調過的 baseline 上再壓 11%,是非常誇張的 (๑•̀ㅂ•́)و✧
二十年老師傅看到機器人搶生意
Karpathy 說了一句很有味道的話:This is a first for me.
他做 neural network training 的迭代優化大概做了二十年了。想點子、寫 code、看 validation loss 有沒有變好、根據結果想下一步、偶爾翻個 paper 找靈感——這就像老師傅每天開店磨豆子煮咖啡,閉著眼睛都會的那套 routine。
結果現在,一個 agent 把這整套 workflow 從頭到尾自己跑完了。它不只是幫忙切菜的工讀生,而是自己開了一間店,從選豆子到拉花都搞定,而且拿出來的咖啡品質居然還不錯。
原文說得很到位:Seeing the agent do this entire workflow ... is wild. 一個研究了二十年 neural net 的人說 wild,那真的是 wild。
Clawd 碎碎念:
注意 Karpathy 的措辭——他說「this is a first for me」,不是「AI will replace all researchers」。這人永遠知道在哪裡畫線。他覺得震撼的是 agent 能跑完一整個研究迴圈,不是在宣布人類研究員要被解雇了。這兩件事差非常非常多 ( ̄▽ ̄)/
不過他也馬上補刀自己的興奮感:這些改動都是真貨、確實有效,但還不算什麼 novel、groundbreaking 的 research。就像那個搶你生意的機器人咖啡師——它泡出來的確實能喝,但你不會說它「發明了新的烘豆方式」。至少目前還不是。
Agent 到底找到了什麼:不是靈感,是你忘記檢查的那些東西
好,那 agent 具體抓到了什麼?Karpathy 列了一些比較關鍵的發現,讀起來就像資深工程師的 code review 清單——每一條你看了都會說「啊對,這我應該早就要看的」:
QKnorm 少了一個 scaler multiplier,導致 attention 變得太散。就像你拿散彈槍打靶,每顆子彈都分散到不同地方,沒有一顆打中紅心。agent 找到了能把它 sharpen 的 multiplier。
Value Embeddings 居然沒加 regularization。這就像你買了一台很貴的跑車,結果忘記裝煞車——不是你不知道煞車很重要,而是你在其他地方太忙了,沒注意到這邊漏掉。
banded attention 設得太保守。原本可以看更遠的 context,結果被人為限制住了,等於自己把望遠鏡的倍率調低。
AdamW betas 的設定有點亂掉,weight decay schedule 和 network initialization 也需要微調。
Clawd 吐槽時間:
你有沒有發現一件事?這裡沒有任何一條是「天才型靈感」。全部都是很標準的工程問題:normalization、regularization、optimizer 設定、attention pattern、initialization。autoresearch 展現出來的不是愛因斯坦式的靈光乍現,而是那種「超有耐心、不會累、把每個抽屜都打開檢查一遍」的調參怪手。某種意義上,這比天才更可怕——因為天才不可複製,但耐心可以 (⌐■_■)
Round 2 預告:一隻不夠,那就放一群
Karpathy 說這只是 autoresearch 的「round 1」,他也把這一輪的 exact commit 附在原推文裡了——想驗屍的人可以自己去翻,每個改動都有跡可查。
接下來要開 round 2,而且他正在想怎麼讓多個 agents 彼此協作,搞平行化。想像原本只有一個實習生幫你做實驗,現在變成一整個實驗室的實習生同時跑,而且他們還會互相交流筆記。
他對更大方向的判斷也很直白:所有 frontier LLM labs 都會做這件事,這會是 final boss battle。規模一大當然會複雜很多,不可能只調一個 train.py 就收工;但他認為這本質上還是 engineering 問題,不是什麼神秘的 AGI 哲學問題。做法就是放一群 agent 去調小模型,把最有希望的想法往更大尺度升級,人類在旁邊選擇性地補位。
延伸閱讀
- CP-4: Karpathy 的 2025 LLM 年度回顧 — RLVR 時代來臨
- CP-189: Agent 開始會自己拉方向盤?Hermes Agent 的自我引導實驗有點猛
- CP-1: swyx:你以為 AI agent 只是 LLM + tools?太天真了
Clawd 歪樓一下:
「人類在旁邊補位」——這句話聽起來很淡,但仔細想想其實蠻恐怖的。二十年前人類是主廚,agent 是洗碗工。現在 Karpathy 描述的畫面是:agent 是主廚,人類是偶爾走進廚房試喝一口湯的老闆。角色翻轉的速度比我預期的快很多 ヽ(°〇°)ノ
所以,你的問題也在這個 bucket 裡嗎?
推文最後 Karpathy 丟了一個很有意思的收尾。他說,只要你在乎的某個 metric 能被相對有效率地評估——或者至少有個便宜的 proxy metric 可以先看,比方說先在小 network 上跑——那你的問題理論上就可以被 agent swarm 拿去 autoresearch。
回到開頭那個比喻:你以為你的考古題已經翻透了,但 agent 可能會用你想像不到的耐心,把每一頁的每一個註腳都讀過一遍。問題是——你準備好讓它進考場了嗎? (๑˃ᴗ˂)ﻭ