autoresearch
3 篇文章
如何讓你的 Claude Skills 變強 10 倍?Andrej Karpathy 的 Autoresearch 方法實戰
Ole Lehmann 分享一個把 Karpathy「autoresearch」概念套進 Claude skills 的做法,讓 agent 自己反覆測試、微調 prompt。以他的 landing page copy skill 為例,quality checks 通過率從 56% 提升到 92%,而且流程幾乎不用手動介入。
Karpathy 的 Autoresearch 怎麼運作?—— 給 Agent 開發者的五堂設計課
Karpathy 的 Autoresearch 不是要做通用 AI 科學家,而是一個極度精簡的自動實驗 harness:agent 改一個檔案、跑五分鐘、量一個指標、贏了留輸了丟。這個設計教會我們:最好的自主系統不是最自由的,而是約束最嚴格的。
AI agent 開始自己調參了,Karpathy 說這不是玩具而是真的有用
Andrej Karpathy 分享,他讓 autoresearch agent 自主調整 nanochat 的訓練設定約兩天,找到大約 20 個能降低 validation loss 的改動,還成功轉移到更大的模型上。這些改動疊起來後,leaderboard 的 Time to GPT-2 從 2.02 小時降到 1.80 小時,約改善 11%。