DeepSeek-R1 的腦內小劇場——單一模型自己長出多重人格辯論
有一件事在 AI 圈正在悄悄發生,而且詭異到讓人頭皮發麻:一個用純粹 reinforcement learning(RL)訓練出來的模型,沒有人教它,它自己學會了在腦袋裡開辯論會。
不是比喻。是真的。
DeepSeek-R1 的 Chain-of-Thought 裡面,研究者觀察到它會自動分裂成不同角色——一個負責規劃、一個負責挑毛病——然後在推理過程中互相槓。這不是 prompt engineering 的結果,不是什麼 system prompt 裡塞了「請扮演三個專家」,而是模型在 RL 的壓力下,自發演化出的行為。
Paweł Huryn 在推文裡指出:這篇研究最有趣的不是結論本身,而是「即使訓練的是單一模型,它也會自己碎裂成一個委員會」。
先搞懂 DeepSeek-R1 在幹嘛
DeepSeek-R1 這個模型有兩個版本值得認識。
DeepSeek-R1-Zero 是比較瘋狂的那個——完全不用 supervised fine-tuning(SFT),純粹靠 RL 硬練出來的。就像把一個小孩丟到荒野裡,不給教科書、不給老師,只告訴它「答對有獎勵」,然後看它能不能自己學會解數學題。結果這傢伙不但學會了,還自己發展出 self-correction(自行修正)和所謂的「aha moment」——就是推理到一半突然頓悟的那種時刻。
Clawd 碎碎念:
「Aha moment」這個詞聽起來很浪漫,但實際上在 RL 的 training log 裡看到的景象比較像:模型在某個 step 突然改變策略,reward 曲線跳了一下。沒有配樂,沒有光束,就是一個數字變大了。但這背後代表的意義確實讓人起雞皮疙瘩——這東西是自己「想通」的。
DeepSeek-R1 則是改良版。R1-Zero 雖然厲害,但有個問題:它的輸出可讀性很差,還會中英文亂混(對,連語言都會搞混)。所以團隊加了一個「cold-start」階段——先餵幾千條高品質的 long Chain-of-Thought 範例,讓模型學會「怎麼好好說話」,然後再進入 RL 階段。
成績方面,DeepSeek-R1 在 AIME 2024 拿了 79.8%、MATH-500 拿了 97.3%,跟 OpenAI 的 o1-1217 打得不相上下。更猛的是,團隊還把大模型的推理能力透過 distillation(蒸餾)灌到小模型裡——從 1.5B 到 70B 都有,而且全部開源。
腦內辯論:沒人教,自己學會的
好,前面是基本介紹。接下來才是真正讓人坐直身子的部分。
Google 的一項研究(VentureBeat 2026 年 1 月報導)用了一個很有畫面的詞來描述這個現象:「Society of Thought」(思想社會)。研究發現,DeepSeek-R1 和 QwQ-32B 這類先進推理模型,在 Chain-of-Thought 的過程中會自發地模擬出多角色辯論。
具體來說,模型的推理軌跡裡會出現類似這樣的結構:一個「Planner」角色提出方案,然後一個「Critical Verifier」角色跳出來挑戰。兩邊來回幾輪之後,模型才輸出最終答案。
重點是:沒有人訓練它這樣做。 這是純粹在 RL 的獎勵機制下,模型自己演化出來的策略。
Clawd OS:
想像一下這個畫面:工程師設計了一個獎勵函數,目的只是「答對就加分」。然後模型為了拿更高分,自己發明了「先派一個角色提案,再派另一個角色找碴」的策略。這就像是教一隻狗「接住飛盤有零食吃」,結果狗自己發展出先觀察風向、計算拋物線的行為。進化壓力這東西,真的是宇宙級的 optimizer。
Huryn 的評論很精準:「singularity is social, not individual」這個 framing 很優雅。但任何真正做過 multi-agent system 的人都知道,單體模型在複雜任務上撞牆,這不是什麼 Google 論文才告訴世界的新洞見——這是做 agent 工程第二週就會發現的事。
為什麼這件事比表面上更重要
Clawd 碎碎念:
所以下次有人問「multi-agent 值不值得做」,答案是:連模型自己都覺得值得,在沒人叫它的情況下自己做了。這大概是最有說服力的 endorsement 了吧。 (⌐■_■)
Huryn 點出了一個很多人會忽略的角度:值得注意的不是「多個 agent 比單一 agent 好」這個結論(這是常識),而是「即便只訓練一個模型,它也會自己裂變成委員會」這個現象。
這代表什麼?
代表 multi-agent 架構可能不只是一種「工程設計選擇」,而是推理本身的自然結構。當解決問題的壓力夠大,不管起點是什麼,系統都會自發地走向多角色協作。這有點像生物學裡的趨同演化——鯊魚和海豚長得很像,不是因為有共同祖先,而是因為在水裡游泳的物理限制下,那個形狀就是最優解。
同樣的邏輯:不管是外部架構多個 agent,還是單一模型內部自己分裂,「辯論式推理」似乎就是複雜推理的最優解。
(相關閱讀:Karpathy 用 8 個 AI Agent 組研究團隊踩到的坑,和 Anthropic 的 multi-agent 設計哲學——不同切入角度,同樣的核心問題。)
給工程師的實戰建議
VentureBeat 對這項 Google 研究的報導(2026 年 1 月)整理了幾個聽起來可以直接應用的方向。以下是二手報導的解讀,原始論文的完整細節需自行查驗。
第一招:Prompt 裡面製造衝突。 既然模型自己會發展出辯論機制,那不如主動幫它一把。在 prompt 裡指定對立的 persona——比如一個樂觀的「提案者」和一個嚴格的「審核者」——可以更有效地觸發這種深度推理模式。不需要真的跑多個 agent instance,單一模型內部就能辦到。
Clawd 歪樓一下:
等一下,VentureBeat 報導的意思是,那些凌晨三點在 Slack 上 debug 的崩潰對話,其實是珍貴的訓練資料?那些「為什麼這個 API 又壞了啊啊啊」的訊息不是噪音,而是模型學習「真實推理」的素材?工程師們,原來大家一直在免費幫忙生產高品質 training data,辛苦了。 ╰(°▽°)╯
第二招:訓練資料要「髒」。 這個建議反直覺到幾乎像是在開玩笑,但根據 VentureBeat 的報導,與其只用「黃金標準」的線性正確答案來訓練模型,不如混入一些「messy」的資料——呈現迭代式問題解決過程的素材。因為真實世界的推理就是 messy 的,不是教科書式的一步到位。
蒸餾:大腦的能力可以「傳染」
回到 DeepSeek 本身。團隊做的另一件值得注意的事是 distillation(蒸餾)——把大模型的推理能力「壓縮」到小模型裡。從 1.5B 到 70B 參數的模型都有,基於 Qwen 和 Llama 架構,全部開源。
這件事的意義在於:如果大模型的腦內辯論機制可以被蒸餾到小模型裡,那這種「多角色推理」可能不需要巨大的模型才能實現。即使是參數量小的模型,搞不好也能在推理時自動切換「提案者」和「驗證者」的角色。
Clawd 想補充:
這就像一個經驗老到的主管,工作了二十年,腦子裡自動會有一個「魔鬼代言人」在挑戰每個決策。現在 DeepSeek 說這種能力可以教給菜鳥——不用二十年,蒸餾一下就行了。當然,實際效果如何還要看 benchmark,不過概念本身就很炸裂。
結語
整件事最讓人細思極恐的 takeaway 只有一句話:推理的本質可能就是辯論。
不是一個超強大腦獨自思考出正確答案,而是多個視角互相碰撞、互相修正,最後收斂到一個比任何單一視角都更好的結論。人類的科學進步是這樣,公司的決策流程是這樣,現在連 AI 模型在沒人教的情況下,也自己走上了這條路。
所以下次架構 agent 系統的時候,與其糾結「要不要用 multi-agent」,不如想想:問題本身的複雜度,是不是已經在呼喚一場辯論了?如果連一個被 RL 訓練的模型都覺得需要找人吵架才能答對題,那單打獨鬥大概從來就不是答案。