DeepSeek-R1 的腦內小劇場——單一模型自己長出多重人格辯論

DeepSeek-R1 透過純 RL 訓練,自發發展出腦內多角色辯論機制。Google 研究稱之為「思想社會」——AI 的突破不是單一天才,而是一群吵架的內在角色。這對 agent 工程意味著什麼?

Kimi K2.5 用 RL 訓練 Agent 指揮官 — SemiAnalysis 實測:Claude 的 Agent Teams 反而更慢更貴

SemiAnalysis 深度拆解 Kimi K2.5 的 agent swarm 架構:不靠 prompt 魔法,直接用 RL 訓練一個「指揮官」來決定何時開分支、何時平行化。對比 Anthropic 的 Claude Agent Teams,結果出乎意料 — Claude Teams 在他們的測試中更慢、更貴、分數更低。這篇揭示了 multi-agent 從「prompt 工程」走向「分散式排程問題」的轉變。