從 $43,000 到 $72

想像一下:你站在 Costco 收銀台前面,手上拿著一箱啤酒,結帳金額大概 $20 美金。

然後你想到,這筆錢在 2026 年,夠你從零訓練一個語言模型了。

2026 年 1 月 31 日,Andrej Karpathy 在 X 上丟出了這顆炸彈:

nanochat can now train GPT-2 grade LLM for <<$100 (~$73, 3 hours on a single 8XH100 node).

8 張 H100 GPU,3 小時,成本 $72。訓練出來的東西跟 GPT-2 一樣強。如果你撿雲端平台的剩餘算力(spot instance),成本更可以壓到 $20 左右。

Clawd Clawd 忍不住說:

$20 美金。一頓好吃的牛排錢。2019 年 OpenAI 訓練同一個模型花了四萬三千美金,現在你用午餐的預算就能搞定。我不知道你怎麼想,但我覺得這個畫面很超現實 — 像是有人告訴你「欸,現在 iPhone 一台十塊錢」(╯°□°)⁠╯

GPT-2:LLM 的 Hello World

GPT-2 是 OpenAI 在 2019 年發布的語言模型。當年 OpenAI 說它「too dangerous to release」— 太危險了不能公開。

但問題來了:為什麼 Karpathy 不去訓練更新更厲害的模型,偏偏對 GPT-2 這麼執著?

他自己的回答是這樣的:

GPT-2 is just my favorite LLM because it’s the first time the LLM stack comes together in a recognizably modern form.

GPT-2 之所以特別,是因為它是第一個「長得像現代 LLM」的模型。Tokenization、transformer 架構、pretraining — 全都到位了。它就像是 LLM 的 Hello World。用 Karpathy 自己的話來說:

GPT-2 (7 years ago): too dangerous to release. GPT-2 (today): new MNIST! :)

Clawd Clawd 認真說:

MNIST 是機器學習界的九九乘法表 — 一堆手寫數字圖片,每個入門者的第一個練習題。Karpathy 的意思是:曾經的尖端黑科技,現在變成新手教材了。科技的殘酷就在這裡 — 你曾經覺得高不可攀的東西,幾年後變成大學生的作業 (╯°□°)⁠╯

600 倍的成本崩跌

好,讓我們來看最震撼的數字對比。

2019 年,OpenAI 用 32 顆 TPU v3 跑了整整 168 小時 — 對,就是 7 天不停機 — 成本大約 $43,000

2026 年,Karpathy 用 8 張 H100 跑了 3 小時。$72。收工。

600 倍。平均每年便宜 2.5 倍。

而且 Karpathy 說這還不是底:

I think this is likely an underestimate because I am still finding more improvements relatively regularly and I have a backlog of more ideas to try.

他手上還有一堆想法沒試完。換句話說,這個數字還會繼續往下掉。

nanochat:一行指令從零到聊天

那 Karpathy 到底是怎麼做到的?答案是 nanochat — 他自己寫的開源 LLM 訓練框架。

nanochat 的設計哲學很極端:整個 LLM 的生命週期 — 從 tokenization 到 pretraining 到 finetuning 到 evaluation 到 inference 到 chat UI — 全部包在一個乾淨到不行的 codebase 裡。它只在一個 GPU 節點上跑,程式碼量壓到最小,讓你想改什麼就改什麼。

最狂的是,你只需要設定一個參數 --depth(transformer 有幾層),其他所有超參數它自己算。整個流程就是一行指令:

bash runs/speedrun.sh

3 小時後,你就有一個自己的 ChatGPT(幼稚園版),可以打開 web UI 跟它聊天:

python -m scripts.chat_web
Clawd Clawd 忍不住說:

Karpathy 自己說跟這個模型聊天「有點像跟幼稚園生講話」— 它會胡說八道、會 hallucinate、可能會跟你說天空是綠色的。但重點不是它多聰明。重點是你花 $72、等 3 小時,就能親手從零生出一個會說話的 AI。兩年前這是科幻小說,現在是週末 side project ┐( ̄ヘ ̄)┌

GPT-2 Speedrun 排行榜

Karpathy 不只自己跑,他還搞了一個「GPT-2 速度跑」排行榜,把全世界最快的紀錄都列出來。這基本上就是 LLM 訓練界的 F1 賽車 — 大家拼命壓圈速。

#時間CORE 分數說明日期
原版168 小時0.2565OpenAI 原始 GPT-22019
#13.04 小時0.2585d24 baselineJan 29
#22.91 小時0.2578d26 + fp8Feb 2
#32.76 小時0.2602batch size 加大Feb 5

短短一週,從 3.04 壓到 2.76。而且你注意到了嗎?分數不只沒掉,還比原版更高。跑更快,結果還更好。

Clawd Clawd 內心戲:

等等,那個 CORE score 是什麼?簡單講就是一個綜合戰鬥力分數 — 把 22 項不同的能力測驗(ARC、MMLU 之類的)全部打包成一個數字。GPT-2 原版的 CORE 分數是 0.256525,你只要超過這個數字就算「打敗 GPT-2」。這就像用更少的油、開更短的路,結果車速還更快。不科學,但它就是發生了 (⌐■_■)

fp8:理論很美好,現實很骨感

2 月 3 日,Karpathy 又分享了他跟 fp8(8-bit floating point)訓練搏鬥的心得。

概念很簡單:H100 跑 fp8 的理論算力是 bf16 的 2 倍。如果精度降一半、速度翻倍,那不是賺翻了嗎?

呃,理論歸理論。

In practice it’s a lot less. We’re not 100% compute bound in the actual training run, there is extra overhead from added scale conversions…

Karpathy 試了兩種策略。Rowwise scaling 的 loss 曲線跟 bf16 很接近(品質保住了),但每一步反而更慢,因為精度轉換的 overhead 把速度優勢吃光了。Tensorwise scaling 終於跑得比較快,大概快了 7.3%,但每一步的品質比較差。

最終結果:大約 5% 的淨加速。離期望的 25% 差很遠。

Clawd Clawd 忍不住說:

fp8 就像把你的量尺換成目測。量得比較快沒錯,但每次都有點偏。Karpathy 折騰半天搞出 5% 加速,聽起來很少,但在 speedrun 的世界裡,5% 就是 3.04 小時和 2.91 小時的差距 — 排行榜上整整一個名次。所以他還是把它留下了。有時候 5% 就是你需要的全部 (๑•̀ㅂ•́)و✧

那些讓 600 倍加速成為可能的技術

好,成本崩了 600 倍,不可能只靠硬體變便宜。Karpathy 到底在軟體端做了什麼?

最大的功臣是 Muon Optimizer。Karpathy 講了一個很經典的故事:他花了整整一天試圖把 Muon 拔掉,只用老牌的 AdamW 就好。結果做不到。

I tried for ~1 day to delete it and only use AdamW and I couldn’t.

在 ML 圈,「我試圖把你拔掉但拔不掉」基本上就是最高級別的讚美了。AdamW 統治了 optimizer 界將近十年,結果在這個場景被新人 Muon 壓著打。

另一個大改進是 Flash Attention 3 — 更快的 attention kernel,而且支援 window_size 參數,讓你可以做交替 attention 模式。然後還有 residual pathways 加上 learnable scalars(讓模型自己學 skip connection 要保留多少比重)和 value embeddings(額外的 embedding 增強表達能力)。

這些東西單獨看都不是什麼驚天動地的突破,但疊在一起就是質變。就像煮一鍋好湯 — 不是某一個食材讓它好喝,是所有配料的化學反應。

延伸閱讀

Clawd Clawd 真心話:

Welcome to 2026, AdamW ( ̄▽ ̄)⁠/ 你服務了十年,辛苦了。但 Muon 來了,你可以退休了。好啦開玩笑的,AdamW 在其他場景還是很強,但 Karpathy 這個 benchmark 基本上就是 Muon 的主場。

所以 — 一個古董模型變便宜,關我什麼事?

你可能在想:「GPT-2 都 2019 年的東西了,訓練它便宜又怎樣?」

這個問題很好,但你漏看了一件事。

GPT-2 的訓練成本每年便宜 2.5 倍,這個速度如果套用到今天的 frontier model 呢?GPT-5、Claude Opus 這些等級的模型,今天的訓練成本是天文數字 — 但按照這個下降曲線,幾年後就不是了。這代表更多小公司甚至個人可以訓練自己的模型,fine-tuning 的成本會低到不值一提,開源模型的品質天花板會不斷被推高。

再想遠一點。$72 訓練一個 LLM,意味著大學課堂可以讓學生親手訓練模型了。不是「看論文想像」,不是「用別人的 API 呼叫」,是自己從零跑一遍。這種 hands-on 的經驗值跟只會 call API 完全是兩個世界。

而 Karpathy 把 nanochat 設計成一個乾淨、可 hack、有排行榜的實驗平台,其實就是在重演當年 MNIST + LeNet 催生 CNN 革命的劇本。給社群一個好玩的 playground,人才自然會湧進來。

$20 的 LLM

七年前,GPT-2 是「太危險不能公開」的黑科技。

今天,你用一頓飯的錢就能從零訓練一個,然後打開 web UI 跟你的幼稚園級 AI 聊天。它會跟你說天空是綠色的,但嘿 — 它是你親手訓練的。

排行榜上的紀錄每週都在刷新,目標是壓到 1 小時以下。下次有人跟你說「訓練 AI 模型很貴」,你就把 nanochat 的 GitHub 連結甩給他。


原文連結