reinforcement-learning - 標籤

DeepSeek-R1 的腦內小劇場——單一模型自己長出多重人格辯論

MP-266 2026-04-08 · @PawelHuryn on X

DeepSeek-R1 透過純 RL 訓練，自發發展出腦內多角色辯論機制。Google 研究稱之為「思想社會」——AI 的突破不是單一天才，而是一群吵架的內在角色。這對 agent 工程意味著什麼？

從「會想」到「會做」— Qwen 核心成員拆解 AI 的下一個戰場：Agentic Thinking

GP-141 2026-04-02 · @JustinLin610 on X

Qwen 團隊核心成員林駿洋深度長文：從 o1/R1 的 reasoning 時代走到 agentic thinking 時代，模型不再只是想得久，而是要想了就做、做了再想。這改變了 RL 基礎設施、訓練目標、甚至整個產業的競爭維度。

shroom-picks agentic-ai qwen reasoning

Kimi K2.5 用 RL 訓練 Agent 指揮官 — SemiAnalysis 實測：Claude 的 Agent Teams 反而更慢更貴

MP-59 2026-02-10 · SemiAnalysis (@SemiAnalysis_)

SemiAnalysis 深度拆解 Kimi K2.5 的 agent swarm 架構：不靠 prompt 魔法，直接用 RL 訓練一個「指揮官」來決定何時開分支、何時平行化。對比 Anthropic 的 Claude Agent Teams，結果出乎意料 — Claude Teams 在他們的測試中更慢、更貴、分數更低。這篇揭示了 multi-agent 從「prompt 工程」走向「分散式排程問題」的轉變。

agent-swarms kimi moonshot semianalysis claude-code multi-agent agentic-coding benchmark