Sebastian Raschka 的 2025 LLM 盤點 — RLVR 時代來了

2025 年 1 月，DeepSeek R1 的論文一丟出來，整個 AI 圈的反應分成兩派：一派忙著讀論文，一派忙著在 Twitter 上寫「典範轉移」四個字。兩週後又有新東西，又有人喊。喊到年底，你已經分不清哪些是真的轉移、哪些只是行銷部的 KPI。

Sebastian Raschka 就是那種不跟你一起喊的人。他是前 Lightning AI 首席研究員，現在全職搞研究和教學，每年會寫一篇超長的 LLM 年度回顧。但他不是流水帳式地列「今年出了哪些模型」— 他退一步問了一個更有意思的問題：這一年，LLM 的遊戲規則到底怎麼變了？

答案只有兩個字：RLVR。

訓練 LLM 的方法，2025 年翻了一頁

先講結論：2025 年 LLM 訓練最大的變化，是大家發現 不需要那麼多人類標註了。

以前訓練 LLM 是這樣的 — 你生成一堆回答，然後請一群人類標註員打分數：「這個好」「那個爛」。問題是，人類標註很貴、很慢、而且每個人標準不一樣。你問十個人「這段回答好不好」，可能拿到七種不同答案。這不是在訓練 AI，這是在做市調。

RLVR（Reinforcement Learning with Verifiable Rewards）的做法完全不同。它挑那些「有標準答案」的任務 — 數學題、程式碼 — 讓模型自己練。答對了，獎勵；答錯了，沒有。不需要人類裁判，計算機就是裁判。

Clawd 溫馨提示：

用生活化的方式想：以前訓練 LLM 像在上烹飪課，每道菜都要老師試吃打分（貴又慢又主觀，老師今天心情不好你就三分）。RLVR 像是讓你去考烘焙丙級 — 蛋糕有沒有熟、尺寸對不對，拿尺量一下就知道。不需要美食評論家，不需要主觀判斷，出爐就有答案。
最狂的是，模型在這個過程中會自己「長出」推理能力 — 開始寫中間步驟、檢查邏輯、回頭修正。沒人教它這樣做，它自己發現「先想清楚再回答」可以拿更多獎勵。這就像你本來只是叫小孩去考試，結果他自己學會了做筆記 ╰(°▽°)⁠╯

DeepSeek R1 就是這個趨勢的分水嶺。它用實際成果證明了：你不需要砸大錢請人類標註，光靠 RL + 可驗證獎勵，模型就能發展出像模像樣的推理行為。

同一個模型，給它多想十分鐘，成績差超多

2025 年第二個大發現：你不一定要把模型訓練得更大，讓它在回答時「多想一會」就好了。

這個概念叫 inference-time scaling（或 test-time compute），聽起來很學術，但想法超直覺 — 你多給模型一點時間，它就答得更好。以前的假設是：模型訓練完就定型了，能力天花板就在那裡。但 2025 年的研究打臉了這個假設。同一個模型，你給它 10 秒思考跟 10 分鐘思考，答案品質可以天差地遠。

DeepSeekMath-V2 就是靠這招在數學奧林匹亞拿下金牌等級的成績 — 模型沒變大，只是回答時花更多計算資源去嘗試不同解法、驗證、修正。

Clawd OS：

這就像考試嘛。有人 30 分鐘寫完交卷出去喝奶茶，有人用滿 90 分鐘反覆檢查。你說誰分數比較高？但問題在於 — 大學考試時間固定，AI 的「考試時間」可是你在付的 (¬‿¬)
多想 = 多花錢 + 回應變慢。所以這招適合「答對很重要、等一下沒關係」的場景：科研、法律分析、醫療診斷。你不會想讓聊天機器人每句話都想十分鐘，那用戶早就關掉去找 Google 了。

把這兩個趨勢合在一起看：2025 年 LLM 進步的方向，從「把模型訓練得更大」轉向了「讓模型更聰明地學習（RLVR）+ 更聰明地回答（inference-time scaling）」。這個轉向的意義比任何單一模型發布都重要。

MoE：用最少的人做最多的事

架構上也在變。2025 年越來越多開源模型採用 Mixture-of-Experts (MoE) — 一個「參數很多但每次只啟動一小部分」的設計。

Clawd 補個刀：

MoE 的概念就像醫院的值班制度。醫院有 200 個醫生，但半夜急診只需要叫 10 個來。你不需要 200 個醫生同時上班（薪水會讓院長哭），但你需要他們隨時可以被叫到。
MoE 模型就是這樣 — 幾百 billion 參數是「編制」，推理時只啟動一小撮是「實際上班的人」。省電、省錢、速度快，但遇到刁鑽的問題也不會叫不到人。
順便說一句，這也是為什麼你看到某些模型標榜「671B 參數」但跑起來卻很快 — 因為它每次只啟動 37B，其他 634B 在休息室喝咖啡 ʕ•ᴥ•ʔ

搭配 grouped-query attention、sliding-window attention 這些更高效的 attention 機制，2025 年的開源模型在「用更少資源做到差不多效果」這件事上進步很大。不是每個人都有 H100 叢集，但越來越多人可以在自己的機器上跑像樣的模型了。

2025 年的劇情轉折

每年回顧最好看的部分，就是那些「年初沒人預料到」的事。2025 年的劇本特別精彩 — 精彩到 Raschka 自己都被打臉。

數學奧林匹亞金牌提早兩年達成。 Raschka 本來估計要到 2026-2027 年 LLM 才能在國際數學奧林匹亞拿金牌，結果 2025 年初就被 DeepSeekMath-V2 和 OpenAI 的 reasoning model 攻下了。AI 研究裡的「五年預測」從來都不準，但連 Raschka 這種自己就在做研究的人都猜錯了。你現在還敢預測 2028 年的事嗎？

開源 LLM 的王座易主。 2024 年你問「開源 LLM 用哪個」，十個人有八個說 Llama。到了 2025 年，阿里巴巴的 Qwen 系列悄悄上位，變成新的預設選擇。不只 Qwen — Kimi、GLM、MiniMax、Yi 全部湧進來，中國的 LLM 軍備競賽白熱化到一個誇張的程度。

Clawd 畫重點：

為什麼突然冒出這麼多中國模型？因為 DeepSeek 的論文揭了一個底：訓練 DeepSeek V3 只花了 500 萬美元。500 萬。不是以前大家以為的五千萬到五億。
這個數字一出來，等於跟全世界說「你不需要是 Google 才能訓練頂級模型」。於是一堆團隊衝進來了 — 跟當年智慧型手機零組件價格暴跌，突然冒出一堆中國手機品牌一模一樣。門檻降低，玩家湧入，競爭加劇，消費者受益。這個循環在科技業已經上演過太多次了 (◕‿◕)

還有兩件事值得一提。OpenAI 居然出了開源模型 — 對，那個名字裡有 Open 但以封閉聞名的公司，終於做了一件跟名字相符的事（鄉民表示：「所以你以前那個 Open 是 Open 個寂寞嗎」）。另一個是 Anthropic 的 MCP（Model Context Protocol）在短時間內變成業界標準。MCP 解決的是「LLM 怎麼跟外部工具溝通」— 有點像當年 USB 統一了各種亂七八糟的接口。以前每家都自己搞一套，現在大家終於講同一種語言了。

2026 年會怎樣？Raschka 的三個賭注

Raschka 對 2026 的預測裡，有三個我覺得值得認真想的 — 而且其中一個我不同意。

第一個賭注：RLVR 會跨出數學和程式碼。化學、生物、物理 — 任何有「可驗證正確性」的領域都會開始用 RLVR 訓練。如果他說對了，這代表 LLM 的能力會從「很會寫文章」擴展到「能做科學推理」。這不是量的變化，是質的變化 — 影響面會大很多。

第二個賭注：消費級設備上跑 diffusion model 會變得稀鬆平常。圖像生成不再需要雲端 GPU，你的手機就能即時生成高品質圖片。考慮到 Apple 和 Google 都在把 AI 晶片塞進手機，這個預測我覺得很安全。

第三個賭注，也是最辣的一個：傳統 RAG 會式微。Raschka 的邏輯是，LLM 的 context window 越來越長（動輒幾百萬 token），你不再需要用 RAG 來「餵」資料給模型了。直接把文件丟進去就好。

Clawd 補個刀：

等等，這個我有話要說 ┐(￣ヘ￣)┌
RAG 的價值不只是「context 不夠長所以要幫忙撈資料」。就算你的 LLM 可以吃 100 萬 token，你也不會想每次問個問題就把整個知識庫丟進去 — 那 token 成本會讓你的財務長昏倒在會議室，而且你每個月的 API 帳單大概會比你的辦公室租金還貴。
更重要的是：RAG 能做到「知識動態更新」。昨天出了新法規、上週客戶改了合約條款 — 模型的訓練資料可不會自動跟上。你要模型知道這些，不是重新訓練（太貴），是 RAG 幫你即時撈進來。
所以我的看法是：RAG 不會消失，它會「進化」成更聰明的檢索 + 長 context 的混合架構。說 RAG 會死，就像當年說搜尋引擎會因為 AI 而消失一樣 — 三年過去了，Google 還是活得好好的。Raschka 大部分預測我都服氣，但這個嘛… (¬‿¬)

西洋棋的啟示

文章最後，Raschka 講了一個我很喜歡的觀點。他用西洋棋做類比：當年電腦棋力超越人類的時候，所有人都以為人類棋手要失業了。結果呢？棋手開始用電腦引擎輔助訓練，棋藝反而突飛猛進，比賽更精彩，觀眾更多，獎金更高。Deep Blue 贏了 Kasparov，但 Kasparov 轉頭就開創了人機協作西洋棋（Advanced Chess），證明人 + 機器 > 純機器。

Raschka 覺得 LLM 會走一樣的路。但我覺得他真正想說的不是「AI 不會取代你別擔心」這種已經聽到爛的廢話。他想說的是：工具改變的不是你的價值，是你的槓桿倍數。 同一個工程師，加上 LLM 之後能做到的事是以前的十倍 — 不是因為他變聰明了，是因為他的工具變強了。重點不在 AI 本身，在你拿它來做什麼。

延伸閱讀

Clawd 內心戲：

其實整篇文章最厲害的地方，不是 Raschka 列了多少數據或模型名字 — 那些東西三個月就過時了。厲害的是他給了你一個看 LLM 演進的框架：訓練方法（RLVR）、推理優化（inference-time scaling）、架構效率（MoE）、成本民主化（DeepSeek 揭露的訓練成本）。
四個維度，像四個座標軸。有了這個框架，下次你看到新模型發布，就不會只是「哦又出了一個」，而是能問自己「它在哪個軸上推進了？」
能從年度流水帳裡提煉出框架的人，跟只會列清單的人，差距大概就跟 RLVR 訓出來的模型跟純 SFT 的模型一樣大 (๑•̀ㅂ•́)و✧