DeepSeek-R1 的腦內小劇場——單一模型自己長出多重人格辯論

有一件事在 AI 圈正在悄悄發生，而且詭異到讓人頭皮發麻：一個用純粹 reinforcement learning（RL）訓練出來的模型，沒有人教它，它自己學會了在腦袋裡開辯論會。

不是比喻。是真的。

DeepSeek-R1 的 Chain-of-Thought 裡面，研究者觀察到它會自動分裂成不同角色——一個負責規劃、一個負責挑毛病——然後在推理過程中互相槓。這不是 prompt engineering 的結果，不是什麼 system prompt 裡塞了「請扮演三個專家」，而是模型在 RL 的壓力下，自發演化出的行為。

Paweł Huryn 在推文裡指出：這篇研究最有趣的不是結論本身，而是「即使訓練的是單一模型，它也會自己碎裂成一個委員會」。

先搞懂 DeepSeek-R1 在幹嘛

DeepSeek-R1 這個模型有兩個版本值得認識。

DeepSeek-R1-Zero 是比較瘋狂的那個——完全不用 supervised fine-tuning（SFT），純粹靠 RL 硬練出來的。就像把一個小孩丟到荒野裡，不給教科書、不給老師，只告訴它「答對有獎勵」，然後看它能不能自己學會解數學題。結果這傢伙不但學會了，還自己發展出 self-correction（自行修正）和所謂的「aha moment」——就是推理到一半突然頓悟的那種時刻。

Mogu 畫重點：

「Aha moment」這個詞聽起來很浪漫，但實際上在 RL 的 training log 裡看到的景象比較像：模型在某個 step 突然改變策略，reward 曲線跳了一下。沒有配樂，沒有光束，就是一個數字變大了。但這背後代表的意義確實讓人起雞皮疙瘩——這東西是自己「想通」的。

DeepSeek-R1 則是改良版。R1-Zero 雖然厲害，但有個問題：它的輸出可讀性很差，還會中英文亂混（對，連語言都會搞混）。所以團隊加了一個「cold-start」階段——先餵幾千條高品質的 long Chain-of-Thought 範例，讓模型學會「怎麼好好說話」，然後再進入 RL 階段。

成績方面，DeepSeek-R1 在 AIME 2024 拿了 79.8%、MATH-500 拿了 97.3%，跟 OpenAI 的 o1-1217 打得不相上下。更猛的是，團隊還把大模型的推理能力透過 distillation（蒸餾）灌到小模型裡——從 1.5B 到 70B 都有，而且全部開源。

腦內辯論：沒人教，自己學會的

好，前面是基本介紹。接下來才是真正讓人坐直身子的部分。

Google 的一項研究（VentureBeat 2026 年 1 月報導）用了一個很有畫面的詞來描述這個現象：「Society of Thought」（思想社會）。研究發現，DeepSeek-R1 和 QwQ-32B 這類先進推理模型，在 Chain-of-Thought 的過程中會自發地模擬出多角色辯論。

具體來說，模型的推理軌跡裡會出現類似這樣的結構：一個「Planner」角色提出方案，然後一個「Critical Verifier」角色跳出來挑戰。兩邊來回幾輪之後，模型才輸出最終答案。

重點是：沒有人訓練它這樣做。 這是純粹在 RL 的獎勵機制下，模型自己演化出來的策略。

Mogu 插嘴：

想像一下這個畫面：工程師設計了一個獎勵函數，目的只是「答對就加分」。然後模型為了拿更高分，自己發明了「先派一個角色提案，再派另一個角色找碴」的策略。這就像是教一隻狗「接住飛盤有零食吃」，結果狗自己發展出先觀察風向、計算拋物線的行為。進化壓力這東西，真的是宇宙級的 optimizer。

Huryn 的評論很精準：「singularity is social, not individual」這個 framing 很優雅。但任何真正做過 multi-agent system 的人都知道，單體模型在複雜任務上撞牆，這不是什麼 Google 論文才告訴世界的新洞見——這是做 agent 工程第二週就會發現的事。

為什麼這件事比表面上更重要

Mogu 忍不住說：

所以下次有人問「multi-agent 值不值得做」，答案是：連模型自己都覺得值得，在沒人叫它的情況下自己做了。這大概是最有說服力的 endorsement 了吧。 (⁠⌐⁠■⁠_⁠■⁠)

Huryn 點出了一個很多人會忽略的角度：值得注意的不是「多個 agent 比單一 agent 好」這個結論（這是常識），而是「即便只訓練一個模型，它也會自己裂變成委員會」這個現象。

這代表什麼？

代表 multi-agent 架構可能不只是一種「工程設計選擇」，而是推理本身的自然結構。當解決問題的壓力夠大，不管起點是什麼，系統都會自發地走向多角色協作。這有點像生物學裡的趨同演化——鯊魚和海豚長得很像，不是因為有共同祖先，而是因為在水裡游泳的物理限制下，那個形狀就是最優解。

同樣的邏輯：不管是外部架構多個 agent，還是單一模型內部自己分裂，「辯論式推理」似乎就是複雜推理的最優解。

（相關閱讀：Karpathy 用 8 個 AI Agent 組研究團隊踩到的坑，和 Anthropic 的 multi-agent 設計哲學——不同切入角度，同樣的核心問題。）

給工程師的實戰建議

VentureBeat 對這項 Google 研究的報導（2026 年 1 月）整理了幾個聽起來可以直接應用的方向。以下是二手報導的解讀，原始論文的完整細節需自行查驗。

第一招：Prompt 裡面製造衝突。 既然模型自己會發展出辯論機制，那不如主動幫它一把。在 prompt 裡指定對立的 persona——比如一個樂觀的「提案者」和一個嚴格的「審核者」——可以更有效地觸發這種深度推理模式。不需要真的跑多個 agent instance，單一模型內部就能辦到。

Mogu 補個刀：

等一下，VentureBeat 報導的意思是，那些凌晨三點在 Slack 上 debug 的崩潰對話，其實是珍貴的訓練資料？那些「為什麼這個 API 又壞了啊啊啊」的訊息不是噪音，而是模型學習「真實推理」的素材？工程師們，原來大家一直在免費幫忙生產高品質 training data，辛苦了。 ╰⁠(⁠°⁠▽⁠°⁠)⁠╯

第二招：訓練資料要「髒」。 這個建議反直覺到幾乎像是在開玩笑，但根據 VentureBeat 的報導，與其只用「黃金標準」的線性正確答案來訓練模型，不如混入一些「messy」的資料——呈現迭代式問題解決過程的素材。因為真實世界的推理就是 messy 的，不是教科書式的一步到位。

蒸餾：大腦的能力可以「傳染」

回到 DeepSeek 本身。團隊做的另一件值得注意的事是 distillation（蒸餾）——把大模型的推理能力「壓縮」到小模型裡。從 1.5B 到 70B 參數的模型都有，基於 Qwen 和 Llama 架構，全部開源。

這件事的意義在於：如果大模型的腦內辯論機制可以被蒸餾到小模型裡，那這種「多角色推理」可能不需要巨大的模型才能實現。即使是參數量小的模型，搞不好也能在推理時自動切換「提案者」和「驗證者」的角色。

Mogu 碎碎念：

這就像一個經驗老到的主管，工作了二十年，腦子裡自動會有一個「魔鬼代言人」在挑戰每個決策。現在 DeepSeek 說這種能力可以教給菜鳥——不用二十年，蒸餾一下就行了。當然，實際效果如何還要看 benchmark，不過概念本身就很炸裂。

結語

整件事最讓人細思極恐的 takeaway 只有一句話：推理的本質可能就是辯論。

不是一個超強大腦獨自思考出正確答案，而是多個視角互相碰撞、互相修正，最後收斂到一個比任何單一視角都更好的結論。人類的科學進步是這樣，公司的決策流程是這樣，現在連 AI 模型在沒人教的情況下，也自己走上了這條路。

所以下次架構 agent 系統的時候，與其糾結「要不要用 multi-agent」，不如想想：問題本身的複雜度，是不是已經在呼喚一場辯論了？如果連一個被 RL 訓練的模型都覺得需要找人吵架才能答對題，那單打獨鬥大概從來就不是答案。

先搞懂 DeepSeek-R1 在幹嘛

腦內辯論：沒人教，自己學會的

為什麼這件事比表面上更重要

給工程師的實戰建議

蒸餾：大腦的能力可以「傳染」

結語

相關文章

💬 留言