AI 推論成本每年暴跌 5-10 倍 — Epoch AI 用真實數據告訴你：今天付不起的 AI，明年就跟泡麵一樣便宜

4,300 萬 tokens → 500 萬 tokens，中間只隔了 8 個月

2025 年 4 月，你把一組大學等級的數學題丟給 o4-mini，它開到 high reasoning effort 全力跑，吃掉了 4,300 萬個 output tokens，才勉強答對 27%。

2025 年 12 月，GPT-5.2 做同一份考卷。reasoning effort 調成 low — 就是那種「我隨便寫寫」的模式。結果？500 萬 tokens，同樣 27%。

八個月。同一張考卷。token 消耗砍掉了將近 90%。而且新模型還根本沒認真考。

Clawd 忍不住說：

你知道這個畫面讓我想到什麼嗎？期中考的時候，你在那邊塗塗改改寫了整整三頁計算紙，交卷前五分鐘才勉強湊出答案。然後你一轉頭，看到隔壁的傢伙寫半頁就站起來走了，出去還順便買了杯珍奶。你們的分數一模一樣。就是這種感覺 (╯°□°)⁠╯

這組數字來自 FrontierMath，Epoch AI 自己維護的高難度數學 benchmark。而 Epoch AI 的資深研究員 Jean-Stanislas Denain 拿這組數字，去回應了一個在 AI 安全圈燒了好幾個月的問題：

AI 推論成本會不會永遠這麼貴？

悲觀派的論點：花錢想更久，而且每次都要付

哲學家兼 AI 安全研究者 Toby Ord 寫了一篇很有份量的分析，邏輯是這樣的：

RL（Reinforcement Learning）訓練讓模型變強的方式，本質上是讓它「想更久」— 更長的 Chain of Thought、更多工具呼叫、更多步驟。但問題來了：訓練成本你付一次，全世界的使用者幫你攤；推論成本是 per-use 的，每一個使用者、每一次 request 都要獨立付錢。

所以 Toby 的結論很直覺：問題越難 → 模型要想越久 → 推論成本越高 → 這是一個持續性的經濟負擔，不會自己消失。

Clawd 補個刀：

Toby Ord 是那個寫了 The Precipice（《危崖》）的牛津哲學家，專門研究人類的存亡風險。他看什麼都覺得快完蛋了，這是他的專業。但公平地說，他的分析框架是紮實的 — Epoch AI 後來反駁的不是他的邏輯，而是他的假設。邏輯對但前提錯，結論就會偏。就像你用完美的數學推導證明了「我永遠存不到錢」，但忘了你下個月要加薪 ┐(￣ヘ￣)┌

Epoch AI 的反論：你低估了成本掉下去的速度

Jean-Stanislas Denain 基本上同意 Toby 的框架 — 沒錯，RL 確實讓模型吃更多推論。但他認為 Toby 嚴重低估了成本下降的速度。

前面那組 FrontierMath 數字只是開胃菜。看完整趨勢更驚人：固定能力等級的推論成本，大約以 每年 5 到 10 倍 的速度在跌。

這是什麼概念？假設今天某個任務要花五萬美元的推論成本 —

一年後，同樣的成績，五千塊搞定。再一年，五百塊。

Clawd 畫重點：

五萬 → 五千 → 五百。這個速度已經不是「降價」了，這是「跳樓大拍賣之後整棟樓拆掉重建」。如果你現在看 API 帳單會心跳加速，請記住你正在付的是 early adopter tax。但也別高興太早 — 等成本降下來，你一定會想用更強的模型，然後帳單又回到原本的高度。AI 界的跑步機效應，跟健身房那台一樣：你一直在跑，但風景沒變 (￣▽￣)⁠／

成本消失的三台引擎

為什麼推論成本會掉這麼快？不是魔法，是三件事同時在發生。

引擎一：蒸餾 — 讓學霸教學渣

大模型花了天文數字的訓練成本學會了一個能力。然後你把它的「解題思路」餵給一個小得多的模型 — 小模型不需要從頭學，它只需要模仿。跑起來便宜很多。

這就是為什麼 GPT-5.2 能用 low effort 達到 o4-mini high effort 的成績：不是因為它天才，是因為前人的推理能力已經被「壓縮」進它的基底模型了。

Clawd 內心戲：

蒸餾的概念很像考古題，但規模大到離譜。想像一下：第一個解出某道證明題的人是陶哲軒等級的天才，他花了三天推導出一條全新的解法路徑。然後助教把這條路徑整理成「解題 SOP」，貼到課程網站上。隔年的學生花二十分鐘讀完，考試照樣拿到八成的分數。他們不是天才，他們只是站在天才整理好的肩膀上。AI 蒸餾就是把「整理肩膀」這件事自動化了 — 而且整理的速度比原本解題的速度還快。這大概是人類史上第一次，抄作業比寫作業更需要工程能力 (◕‿◕)

引擎二：推論演算法越來越聰明

技術界一直在想辦法讓同一張 GPU 榨出更多汁。而且這不是一條路線，是好幾條同時在推進。

先講 Speculative Decoding。概念很簡單：你讓一個跑很快的小模型先衝出去猜答案，然後大模型在後面驗證。猜對了就直接用，猜錯了才重來。這就像餐廳的菜單 — 服務生先猜你要什麼（「老樣子？」），猜對了省一趟來回。token 生成速度直接翻倍，而且答案品質完全不變。

再來是記憶體的部分。模型推論的時候要維護一個叫 KV Cache 的東西，基本上就是它的「短期記憶」。以前這個記憶體吃得跟黑洞一樣，現在 Paged Attention 和 Sparse Attention 把用量壓到原本的零頭。用不到的記憶？KV Cache Offloading 直接搬到便宜的儲存空間去冬眠。整套操作下來，同一張卡能同時服務的使用者數量暴增。

最後一條路線最有意思：讓模型本身學會少說廢話。Anthropic 從 Sonnet 3.7 到 Sonnet 4，把 Chain of Thought 裡面的冗餘推理砍掉了一大截。不是讓模型變笨，是讓它學會「想到重點就好，不用每次都從第一性原理開始推導」。

Clawd 真心話：

Sonnet 3.7 的推理有時候真的像在寫碩士論文 — 你問它 2+2 等於多少，它會先從集合論的公理開始建構自然數的定義，然後推導 Peano 公設，接著才說「所以 2+2=4」。拜託，我只是想算個晚餐要 AA 多少錢。Sonnet 4 好多了，至少學會了「廢話少說直接給答案」這個人類花了好幾年社會化才學會的基本技能。不過說真的，能把「想更少」變成一種效能提升，也是挺哲學的 ┐(￣ヘ￣)┌

引擎三：硬體每一代都在降價

每一代 GPU 的每 FLOP 成本都在降。這是最無聊但最可靠的成本削減來源 — Moore’s Law 的老朋友，每年都準時報到，從不讓人失望。

那 Toby 的 RL 效率數字呢？

Toby 的另一個核心論點：RL scaling 回報率很差 — 大約需要 10,000 倍的 RL 計算才能匹配 100 倍推論計算的效果。

但 Epoch AI 覺得這個估計站不住腳，原因有三：

第一，數據太薄了。Toby 的估計主要來自 OpenAI 公佈的 o1 scaling 圖表，但那些圖表的 x 軸數字被移除了。你基本上是在看一張沒有刻度的地圖然後說「我覺得距離大概是這樣」。

第二，演算法一直在進步。學術研究顯示，新一代的 RL 方法（像 Scaled RL）效率可以是 GRPO 的兩倍以上。用舊方法的效率去預測未來，就像用 2010 年的智慧型手機電池壽命去預測 2025 年的一樣不公平。

第三，OpenAI 當初根本沒認真優化 RL。在 o1 和 o3 的時代，RL 計算只佔訓練總成本的一小部分 — 你不會為了月繳 $50 的帳單去研究三天的省錢攻略。

Clawd murmur：

第三點我覺得最妙。想像一下：你每個月 AWS 帳單 $50，你連 dashboard 都懶得開。但帳單漲到 $50,000 的那天？你突然變成雲端成本優化大師，半夜兩點還在讀 Reserved Instance 的文件，隔天早上開始跟 Solutions Architect 稱兄道弟。OpenAI 對 RL 的態度轉變，大概就是這個劇情 (¬‿¬)

好消息背後的 asterisk

到這裡你可能覺得天下太平了 — 成本每年暴跌 5-10 倍，再等兩年什麼都便宜了，躺著就好。

慢著。Epoch AI 自己也列了幾個 caveat，而且我覺得他們夠誠實：

模型不能無限縮小。 可能存在一個最小參數量的門檻 — 低於這個量，不管你怎麼蒸餾，模型就是沒辦法做到通用的 agentic 能力。就像你可以把百科全書濃縮成筆記，但濃縮到只剩三張便利貼，那就不是筆記了，那是詩。

蒸餾模型比較脆弱。 它們在 benchmark 上表現漂亮，但遇到沒見過的 edge case 可能翻車。就像那種只背考古題的學生 — 題目稍微換個數字就傻了。

Benchmark 可能高估了成本下降速度。 因為蒸餾模型天生就對 benchmark 風格的題目有優勢，所以你看到的「降幅」可能比真實世界的降幅更誇張。

Clawd 溫馨提示：

這就是為什麼 Epoch AI 值得讀。他們不是那種只報好消息的分析師。「成本每年降 5-10 倍」後面有 asterisk，而那個 asterisk 寫著：「但降到某個程度可能會放慢，蒸餾出來的模型在生產環境可能沒你想的穩。」能同時告訴你好消息和壞消息的人，比只給你好消息的人可靠一百倍 ʕ•ᴥ•ʔ

回到那張考卷

還記得開頭那個畫面嗎？o4-mini 拼了命寫了三頁計算紙，4,300 萬 tokens。GPT-5.2 隨便寫半頁，500 萬 tokens。同樣 27 分。

這組數字背後，其實藏著一個更大的故事：你今天覺得「貴到不可能」的 AI 應用，大概率只是時間問題。

不是因為什麼魔法。是因為蒸餾在壓縮智慧、演算法在壓縮算力、硬體在壓縮成本。三台引擎同時轉，而且每一台都沒有要停下來的意思。

但 Epoch AI 最讓我尊敬的地方，不是他們的樂觀，而是他們的誠實。他們在告訴你「成本每年降 5-10 倍」的同時，也告訴你蒸餾有極限、小模型會翻車、benchmark 數字可能灌了水。這種「好消息壞消息一起給」的風格，在這個圈子裡太稀缺了。

所以下次你看到一張 API 帳單，心跳開始加速的時候，可以深呼吸一下。那個數字大概率不是永久的。但如果你打算等到便宜了才開始建東西 — 到時候你會發現，先踩過坑的人已經把路鋪好了，而你還在看地圖。

Clawd 吐槽時間：

說到底，Epoch AI 這篇文章做了一件很少有免費內容願意做的事：它讓你對未來的判斷多了一個數據點，而不是多了一碗雞湯。在一個「AI 會取代所有人」跟「AI 只是泡沫」兩種極端之間，Epoch AI 選擇了最無聊但最有用的那條路 — 算數學。有時候最好的觀點不是觀點，而是一張算清楚的帳單 (๑•̀ㅂ•́)و✧

原文連結：How persistent is the inference cost burden? — Epoch AI Gradient Updates, 2026/02/16

延伸閱讀：

Toby Ord: How well does RL scale?（Toby Ord 的原始分析）
CP-43: Epoch AI 研究員親自測試：AI 離搶走我的工作還有多遠？（同系列，更關注 job automation）