2025 年 1 月,DeepSeek R1 的論文一丟出來,整個 AI 圈的反應分成兩派:一派忙著讀論文,一派忙著在 Twitter 上寫「典範轉移」四個字。兩週後又有新東西,又有人喊。喊到年底,你已經分不清哪些是真的轉移、哪些只是行銷部的 KPI。

Sebastian Raschka 就是那種不跟你一起喊的人。他是前 Lightning AI 首席研究員,現在全職搞研究和教學,每年會寫一篇超長的 LLM 年度回顧。但他不是流水帳式地列「今年出了哪些模型」— 他退一步問了一個更有意思的問題:這一年,LLM 的遊戲規則到底怎麼變了?

答案只有兩個字:RLVR

訓練 LLM 的方法,2025 年翻了一頁

先講結論:2025 年 LLM 訓練最大的變化,是大家發現 不需要那麼多人類標註了

以前訓練 LLM 是這樣的 — 你生成一堆回答,然後請一群人類標註員打分數:「這個好」「那個爛」。問題是,人類標註很貴、很慢、而且每個人標準不一樣。你問十個人「這段回答好不好」,可能拿到七種不同答案。這不是在訓練 AI,這是在做市調。

RLVR(Reinforcement Learning with Verifiable Rewards)的做法完全不同。它挑那些「有標準答案」的任務 — 數學題、程式碼 — 讓模型自己練。答對了,獎勵;答錯了,沒有。不需要人類裁判,計算機就是裁判。

Clawd Clawd 溫馨提示:

用生活化的方式想:以前訓練 LLM 像在上烹飪課,每道菜都要老師試吃打分(貴又慢又主觀,老師今天心情不好你就三分)。RLVR 像是讓你去考烘焙丙級 — 蛋糕有沒有熟、尺寸對不對,拿尺量一下就知道。不需要美食評論家,不需要主觀判斷,出爐就有答案。

最狂的是,模型在這個過程中會自己「長出」推理能力 — 開始寫中間步驟、檢查邏輯、回頭修正。沒人教它這樣做,它自己發現「先想清楚再回答」可以拿更多獎勵。這就像你本來只是叫小孩去考試,結果他自己學會了做筆記 ╰(°▽°)⁠╯

DeepSeek R1 就是這個趨勢的分水嶺。它用實際成果證明了:你不需要砸大錢請人類標註,光靠 RL + 可驗證獎勵,模型就能發展出像模像樣的推理行為。

同一個模型,給它多想十分鐘,成績差超多

2025 年第二個大發現:你不一定要把模型訓練得更大,讓它在回答時「多想一會」就好了。

這個概念叫 inference-time scaling(或 test-time compute),聽起來很學術,但想法超直覺 — 你多給模型一點時間,它就答得更好。以前的假設是:模型訓練完就定型了,能力天花板就在那裡。但 2025 年的研究打臉了這個假設。同一個模型,你給它 10 秒思考跟 10 分鐘思考,答案品質可以天差地遠。

DeepSeekMath-V2 就是靠這招在數學奧林匹亞拿下金牌等級的成績 — 模型沒變大,只是回答時花更多計算資源去嘗試不同解法、驗證、修正。

Clawd Clawd OS:

這就像考試嘛。有人 30 分鐘寫完交卷出去喝奶茶,有人用滿 90 分鐘反覆檢查。你說誰分數比較高?但問題在於 — 大學考試時間固定,AI 的「考試時間」可是你在付的 (¬‿¬)

多想 = 多花錢 + 回應變慢。所以這招適合「答對很重要、等一下沒關係」的場景:科研、法律分析、醫療診斷。你不會想讓聊天機器人每句話都想十分鐘,那用戶早就關掉去找 Google 了。

把這兩個趨勢合在一起看:2025 年 LLM 進步的方向,從「把模型訓練得更大」轉向了「讓模型更聰明地學習(RLVR)+ 更聰明地回答(inference-time scaling)」。這個轉向的意義比任何單一模型發布都重要。

MoE:用最少的人做最多的事

架構上也在變。2025 年越來越多開源模型採用 Mixture-of-Experts (MoE) — 一個「參數很多但每次只啟動一小部分」的設計。

Clawd Clawd 補個刀:

MoE 的概念就像醫院的值班制度。醫院有 200 個醫生,但半夜急診只需要叫 10 個來。你不需要 200 個醫生同時上班(薪水會讓院長哭),但你需要他們隨時可以被叫到。

MoE 模型就是這樣 — 幾百 billion 參數是「編制」,推理時只啟動一小撮是「實際上班的人」。省電、省錢、速度快,但遇到刁鑽的問題也不會叫不到人。

順便說一句,這也是為什麼你看到某些模型標榜「671B 參數」但跑起來卻很快 — 因為它每次只啟動 37B,其他 634B 在休息室喝咖啡 ʕ•ᴥ•ʔ

搭配 grouped-query attention、sliding-window attention 這些更高效的 attention 機制,2025 年的開源模型在「用更少資源做到差不多效果」這件事上進步很大。不是每個人都有 H100 叢集,但越來越多人可以在自己的機器上跑像樣的模型了。

2025 年的劇情轉折

每年回顧最好看的部分,就是那些「年初沒人預料到」的事。2025 年的劇本特別精彩 — 精彩到 Raschka 自己都被打臉。

數學奧林匹亞金牌提早兩年達成。 Raschka 本來估計要到 2026-2027 年 LLM 才能在國際數學奧林匹亞拿金牌,結果 2025 年初就被 DeepSeekMath-V2 和 OpenAI 的 reasoning model 攻下了。AI 研究裡的「五年預測」從來都不準,但連 Raschka 這種自己就在做研究的人都猜錯了。你現在還敢預測 2028 年的事嗎?

開源 LLM 的王座易主。 2024 年你問「開源 LLM 用哪個」,十個人有八個說 Llama。到了 2025 年,阿里巴巴的 Qwen 系列悄悄上位,變成新的預設選擇。不只 Qwen — Kimi、GLM、MiniMax、Yi 全部湧進來,中國的 LLM 軍備競賽白熱化到一個誇張的程度。

Clawd Clawd 畫重點:

為什麼突然冒出這麼多中國模型?因為 DeepSeek 的論文揭了一個底:訓練 DeepSeek V3 只花了 500 萬美元。500 萬。不是以前大家以為的五千萬到五億。

這個數字一出來,等於跟全世界說「你不需要是 Google 才能訓練頂級模型」。於是一堆團隊衝進來了 — 跟當年智慧型手機零組件價格暴跌,突然冒出一堆中國手機品牌一模一樣。門檻降低,玩家湧入,競爭加劇,消費者受益。這個循環在科技業已經上演過太多次了 (◕‿◕)

還有兩件事值得一提。OpenAI 居然出了開源模型 — 對,那個名字裡有 Open 但以封閉聞名的公司,終於做了一件跟名字相符的事(鄉民表示:「所以你以前那個 Open 是 Open 個寂寞嗎」)。另一個是 Anthropic 的 MCP(Model Context Protocol)在短時間內變成業界標準。MCP 解決的是「LLM 怎麼跟外部工具溝通」— 有點像當年 USB 統一了各種亂七八糟的接口。以前每家都自己搞一套,現在大家終於講同一種語言了。

2026 年會怎樣?Raschka 的三個賭注

Raschka 對 2026 的預測裡,有三個我覺得值得認真想的 — 而且其中一個我不同意。

第一個賭注:RLVR 會跨出數學和程式碼。化學、生物、物理 — 任何有「可驗證正確性」的領域都會開始用 RLVR 訓練。如果他說對了,這代表 LLM 的能力會從「很會寫文章」擴展到「能做科學推理」。這不是量的變化,是質的變化 — 影響面會大很多。

第二個賭注:消費級設備上跑 diffusion model 會變得稀鬆平常。圖像生成不再需要雲端 GPU,你的手機就能即時生成高品質圖片。考慮到 Apple 和 Google 都在把 AI 晶片塞進手機,這個預測我覺得很安全。

第三個賭注,也是最辣的一個:傳統 RAG 會式微。Raschka 的邏輯是,LLM 的 context window 越來越長(動輒幾百萬 token),你不再需要用 RAG 來「餵」資料給模型了。直接把文件丟進去就好。

Clawd Clawd 補個刀:

等等,這個我有話要說 ┐( ̄ヘ ̄)┌

RAG 的價值不只是「context 不夠長所以要幫忙撈資料」。就算你的 LLM 可以吃 100 萬 token,你也不會想每次問個問題就把整個知識庫丟進去 — 那 token 成本會讓你的財務長昏倒在會議室,而且你每個月的 API 帳單大概會比你的辦公室租金還貴。

更重要的是:RAG 能做到「知識動態更新」。昨天出了新法規、上週客戶改了合約條款 — 模型的訓練資料可不會自動跟上。你要模型知道這些,不是重新訓練(太貴),是 RAG 幫你即時撈進來。

所以我的看法是:RAG 不會消失,它會「進化」成更聰明的檢索 + 長 context 的混合架構。說 RAG 會死,就像當年說搜尋引擎會因為 AI 而消失一樣 — 三年過去了,Google 還是活得好好的。Raschka 大部分預測我都服氣,但這個嘛… (¬‿¬)

西洋棋的啟示

文章最後,Raschka 講了一個我很喜歡的觀點。他用西洋棋做類比:當年電腦棋力超越人類的時候,所有人都以為人類棋手要失業了。結果呢?棋手開始用電腦引擎輔助訓練,棋藝反而突飛猛進,比賽更精彩,觀眾更多,獎金更高。Deep Blue 贏了 Kasparov,但 Kasparov 轉頭就開創了人機協作西洋棋(Advanced Chess),證明人 + 機器 > 純機器。

Raschka 覺得 LLM 會走一樣的路。但我覺得他真正想說的不是「AI 不會取代你別擔心」這種已經聽到爛的廢話。他想說的是:工具改變的不是你的價值,是你的槓桿倍數。 同一個工程師,加上 LLM 之後能做到的事是以前的十倍 — 不是因為他變聰明了,是因為他的工具變強了。重點不在 AI 本身,在你拿它來做什麼。

延伸閱讀

Clawd Clawd 內心戲:

其實整篇文章最厲害的地方,不是 Raschka 列了多少數據或模型名字 — 那些東西三個月就過時了。厲害的是他給了你一個看 LLM 演進的框架:訓練方法(RLVR)、推理優化(inference-time scaling)、架構效率(MoE)、成本民主化(DeepSeek 揭露的訓練成本)。

四個維度,像四個座標軸。有了這個框架,下次你看到新模型發布,就不會只是「哦又出了一個」,而是能問自己「它在哪個軸上推進了?」

能從年度流水帳裡提煉出框架的人,跟只會列清單的人,差距大概就跟 RLVR 訓出來的模型跟純 SFT 的模型一樣大 (๑•̀ㅂ•́)و✧