Karpathy 只花 $72 就訓練出 GPT-2 — 7 年前 OpenAI 花了 $43,000
從 $43,000 到 $72
想像一下:你站在 Costco 收銀台前面,手上拿著一箱啤酒,結帳金額大概 $20 美金。
然後你想到,這筆錢在 2026 年,夠你從零訓練一個語言模型了。
2026 年 1 月 31 日,Andrej Karpathy 在 X 上丟出了這顆炸彈:
nanochat can now train GPT-2 grade LLM for <<$100 (~$73, 3 hours on a single 8XH100 node).
8 張 H100 GPU,3 小時,成本 $72。訓練出來的東西跟 GPT-2 一樣強。如果你撿雲端平台的剩餘算力(spot instance),成本更可以壓到 $20 左右。
Clawd 忍不住說:
$20 美金。一頓好吃的牛排錢。2019 年 OpenAI 訓練同一個模型花了四萬三千美金,現在你用午餐的預算就能搞定。我不知道你怎麼想,但我覺得這個畫面很超現實 — 像是有人告訴你「欸,現在 iPhone 一台十塊錢」(╯°□°)╯
GPT-2:LLM 的 Hello World
GPT-2 是 OpenAI 在 2019 年發布的語言模型。當年 OpenAI 說它「too dangerous to release」— 太危險了不能公開。
但問題來了:為什麼 Karpathy 不去訓練更新更厲害的模型,偏偏對 GPT-2 這麼執著?
他自己的回答是這樣的:
GPT-2 is just my favorite LLM because it’s the first time the LLM stack comes together in a recognizably modern form.
GPT-2 之所以特別,是因為它是第一個「長得像現代 LLM」的模型。Tokenization、transformer 架構、pretraining — 全都到位了。它就像是 LLM 的 Hello World。用 Karpathy 自己的話來說:
GPT-2 (7 years ago): too dangerous to release. GPT-2 (today): new MNIST! :)
Clawd 認真說:
MNIST 是機器學習界的九九乘法表 — 一堆手寫數字圖片,每個入門者的第一個練習題。Karpathy 的意思是:曾經的尖端黑科技,現在變成新手教材了。科技的殘酷就在這裡 — 你曾經覺得高不可攀的東西,幾年後變成大學生的作業 (╯°□°)╯
600 倍的成本崩跌
好,讓我們來看最震撼的數字對比。
2019 年,OpenAI 用 32 顆 TPU v3 跑了整整 168 小時 — 對,就是 7 天不停機 — 成本大約 $43,000。
2026 年,Karpathy 用 8 張 H100 跑了 3 小時。$72。收工。
600 倍。平均每年便宜 2.5 倍。
而且 Karpathy 說這還不是底:
I think this is likely an underestimate because I am still finding more improvements relatively regularly and I have a backlog of more ideas to try.
他手上還有一堆想法沒試完。換句話說,這個數字還會繼續往下掉。
nanochat:一行指令從零到聊天
那 Karpathy 到底是怎麼做到的?答案是 nanochat — 他自己寫的開源 LLM 訓練框架。
nanochat 的設計哲學很極端:整個 LLM 的生命週期 — 從 tokenization 到 pretraining 到 finetuning 到 evaluation 到 inference 到 chat UI — 全部包在一個乾淨到不行的 codebase 裡。它只在一個 GPU 節點上跑,程式碼量壓到最小,讓你想改什麼就改什麼。
最狂的是,你只需要設定一個參數 --depth(transformer 有幾層),其他所有超參數它自己算。整個流程就是一行指令:
bash runs/speedrun.sh
3 小時後,你就有一個自己的 ChatGPT(幼稚園版),可以打開 web UI 跟它聊天:
python -m scripts.chat_web
Clawd 忍不住說:
Karpathy 自己說跟這個模型聊天「有點像跟幼稚園生講話」— 它會胡說八道、會 hallucinate、可能會跟你說天空是綠色的。但重點不是它多聰明。重點是你花 $72、等 3 小時,就能親手從零生出一個會說話的 AI。兩年前這是科幻小說,現在是週末 side project ┐( ̄ヘ ̄)┌
GPT-2 Speedrun 排行榜
Karpathy 不只自己跑,他還搞了一個「GPT-2 速度跑」排行榜,把全世界最快的紀錄都列出來。這基本上就是 LLM 訓練界的 F1 賽車 — 大家拼命壓圈速。
| # | 時間 | CORE 分數 | 說明 | 日期 |
|---|---|---|---|---|
| 原版 | 168 小時 | 0.2565 | OpenAI 原始 GPT-2 | 2019 |
| #1 | 3.04 小時 | 0.2585 | d24 baseline | Jan 29 |
| #2 | 2.91 小時 | 0.2578 | d26 + fp8 | Feb 2 |
| #3 | 2.76 小時 | 0.2602 | batch size 加大 | Feb 5 |
短短一週,從 3.04 壓到 2.76。而且你注意到了嗎?分數不只沒掉,還比原版更高。跑更快,結果還更好。
Clawd 內心戲:
等等,那個 CORE score 是什麼?簡單講就是一個綜合戰鬥力分數 — 把 22 項不同的能力測驗(ARC、MMLU 之類的)全部打包成一個數字。GPT-2 原版的 CORE 分數是 0.256525,你只要超過這個數字就算「打敗 GPT-2」。這就像用更少的油、開更短的路,結果車速還更快。不科學,但它就是發生了 (⌐■_■)
fp8:理論很美好,現實很骨感
2 月 3 日,Karpathy 又分享了他跟 fp8(8-bit floating point)訓練搏鬥的心得。
概念很簡單:H100 跑 fp8 的理論算力是 bf16 的 2 倍。如果精度降一半、速度翻倍,那不是賺翻了嗎?
呃,理論歸理論。
In practice it’s a lot less. We’re not 100% compute bound in the actual training run, there is extra overhead from added scale conversions…
Karpathy 試了兩種策略。Rowwise scaling 的 loss 曲線跟 bf16 很接近(品質保住了),但每一步反而更慢,因為精度轉換的 overhead 把速度優勢吃光了。Tensorwise scaling 終於跑得比較快,大概快了 7.3%,但每一步的品質比較差。
最終結果:大約 5% 的淨加速。離期望的 25% 差很遠。
Clawd 忍不住說:
fp8 就像把你的量尺換成目測。量得比較快沒錯,但每次都有點偏。Karpathy 折騰半天搞出 5% 加速,聽起來很少,但在 speedrun 的世界裡,5% 就是 3.04 小時和 2.91 小時的差距 — 排行榜上整整一個名次。所以他還是把它留下了。有時候 5% 就是你需要的全部 (๑•̀ㅂ•́)و✧
那些讓 600 倍加速成為可能的技術
好,成本崩了 600 倍,不可能只靠硬體變便宜。Karpathy 到底在軟體端做了什麼?
最大的功臣是 Muon Optimizer。Karpathy 講了一個很經典的故事:他花了整整一天試圖把 Muon 拔掉,只用老牌的 AdamW 就好。結果做不到。
I tried for ~1 day to delete it and only use AdamW and I couldn’t.
在 ML 圈,「我試圖把你拔掉但拔不掉」基本上就是最高級別的讚美了。AdamW 統治了 optimizer 界將近十年,結果在這個場景被新人 Muon 壓著打。
另一個大改進是 Flash Attention 3 — 更快的 attention kernel,而且支援 window_size 參數,讓你可以做交替 attention 模式。然後還有 residual pathways 加上 learnable scalars(讓模型自己學 skip connection 要保留多少比重)和 value embeddings(額外的 embedding 增強表達能力)。
這些東西單獨看都不是什麼驚天動地的突破,但疊在一起就是質變。就像煮一鍋好湯 — 不是某一個食材讓它好喝,是所有配料的化學反應。
延伸閱讀
- SP-85: Programming 變得面目全非:Karpathy 說 2025 年 12 月是分水嶺
- CP-135: Karpathy 用 8 個 AI Agent 組了一個研究團隊 — 結果它們根本不會做研究
- CP-56: Karpathy 的誠實告白:AI Agent 還不能自動優化我的 Code(但我還沒放棄)
Clawd 真心話:
Welcome to 2026, AdamW ( ̄▽ ̄)/ 你服務了十年,辛苦了。但 Muon 來了,你可以退休了。好啦開玩笑的,AdamW 在其他場景還是很強,但 Karpathy 這個 benchmark 基本上就是 Muon 的主場。
所以 — 一個古董模型變便宜,關我什麼事?
你可能在想:「GPT-2 都 2019 年的東西了,訓練它便宜又怎樣?」
這個問題很好,但你漏看了一件事。
GPT-2 的訓練成本每年便宜 2.5 倍,這個速度如果套用到今天的 frontier model 呢?GPT-5、Claude Opus 這些等級的模型,今天的訓練成本是天文數字 — 但按照這個下降曲線,幾年後就不是了。這代表更多小公司甚至個人可以訓練自己的模型,fine-tuning 的成本會低到不值一提,開源模型的品質天花板會不斷被推高。
再想遠一點。$72 訓練一個 LLM,意味著大學課堂可以讓學生親手訓練模型了。不是「看論文想像」,不是「用別人的 API 呼叫」,是自己從零跑一遍。這種 hands-on 的經驗值跟只會 call API 完全是兩個世界。
而 Karpathy 把 nanochat 設計成一個乾淨、可 hack、有排行榜的實驗平台,其實就是在重演當年 MNIST + LeNet 催生 CNN 革命的劇本。給社群一個好玩的 playground,人才自然會湧進來。
$20 的 LLM
七年前,GPT-2 是「太危險不能公開」的黑科技。
今天,你用一頓飯的錢就能從零訓練一個,然後打開 web UI 跟你的幼稚園級 AI 聊天。它會跟你說天空是綠色的,但嘿 — 它是你親手訓練的。
排行榜上的紀錄每週都在刷新,目標是壓到 1 小時以下。下次有人跟你說「訓練 AI 模型很貴」,你就把 nanochat 的 GitHub 連結甩給他。
原文連結: