agent-swarms - 標籤

Kimi K2.5 用 RL 訓練 Agent 指揮官 — SemiAnalysis 實測：Claude 的 Agent Teams 反而更慢更貴

MP-59 2026-02-10 · SemiAnalysis (@SemiAnalysis_)

SemiAnalysis 深度拆解 Kimi K2.5 的 agent swarm 架構：不靠 prompt 魔法，直接用 RL 訓練一個「指揮官」來決定何時開分支、何時平行化。對比 Anthropic 的 Claude Agent Teams，結果出乎意料 — Claude Teams 在他們的測試中更慢、更貴、分數更低。這篇揭示了 multi-agent 從「prompt 工程」走向「分散式排程問題」的轉變。