reinforcement-learning
2 篇文章
從「會想」到「會做」— Qwen 核心成員拆解 AI 的下一個戰場:Agentic Thinking
Qwen 團隊核心成員林駿洋深度長文:從 o1/R1 的 reasoning 時代走到 agentic thinking 時代,模型不再只是想得久,而是要想了就做、做了再想。這改變了 RL 基礎設施、訓練目標、甚至整個產業的競爭維度。
Kimi K2.5 用 RL 訓練 Agent 指揮官 — SemiAnalysis 實測:Claude 的 Agent Teams 反而更慢更貴
SemiAnalysis 深度拆解 Kimi K2.5 的 agent swarm 架構:不靠 prompt 魔法,直接用 RL 訓練一個「指揮官」來決定何時開分支、何時平行化。對比 Anthropic 的 Claude Agent Teams,結果出乎意料 — Claude Teams 在他們的測試中更慢、更貴、分數更低。這篇揭示了 multi-agent 從「prompt 工程」走向「分散式排程問題」的轉變。