Kimi K2.5 用 RL 訓練 Agent 指揮官 — SemiAnalysis 實測:Claude 的 Agent Teams 反而更慢更貴

SemiAnalysis 深度拆解 Kimi K2.5 的 agent swarm 架構:不靠 prompt 魔法,直接用 RL 訓練一個「指揮官」來決定何時開分支、何時平行化。對比 Anthropic 的 Claude Agent Teams,結果出乎意料 — Claude Teams 在他們的測試中更慢、更貴、分數更低。這篇揭示了 multi-agent 從「prompt 工程」走向「分散式排程問題」的轉變。