從「會想」到「會做」— Qwen 核心成員拆解 AI 的下一個戰場:Agentic Thinking

Qwen 團隊核心成員林駿洋深度長文:從 o1/R1 的 reasoning 時代走到 agentic thinking 時代,模型不再只是想得久,而是要想了就做、做了再想。這改變了 RL 基礎設施、訓練目標、甚至整個產業的競爭維度。

AI 不用再背九九乘法表了:Reasoning 和 Tool Calling 如何讓小模型跑出大模型的水準

Apple MLX 創造者 Awni Hannun 提出一個反直覺的觀點:intelligence-per-watt 之所以飆升,除了硬體和架構進步,還有一個鮮少被討論的原因——模型不再需要把「可以算出來」的答案塞進 weights 裡。Reasoning 和 tool calling 讓模型把計算外包出去,釋放出大量的 weight 空間。這意味著 5B-15B 的小模型,理論上可能達到今天 GPT-5.x 的水準——雖然沒有人真正知道天花板在哪。

AI 的思考過程真的藏不住嗎?OpenAI 發布 CoT Controllability 研究,結果出乎所有人意料

OpenAI 首次在 GPT-5.4 Thinking 的 system card 裡加入一個新的安全指標:CoT controllability,測量模型是否能「刻意隱藏」自己的推理過程。結果發現 GPT-5.4 Thinking 在 10,000 字元長度下只有 0.3% 的成功率,代表它幾乎沒辦法藏住自己在想什麼——這對 AI safety 社群來說是個意外的好消息。

打字機 vs 編輯:Mercury 2 用 Diffusion 架構重新發明 LLM,推理速度快 5 倍、價格砍到 1/4

Inception Labs 發佈 Mercury 2——全球第一個具備 reasoning 能力的 Diffusion LLM。不同於傳統「一個字一個字吐」的自迴歸模型,Mercury 2 像編輯一樣同時修改整段文字,推理速度達 1,008 tokens/sec,比 Claude 4.5 Haiku 快 5 倍,價格便宜 4 倍。Andrew Ng 和 Karpathy 都是投資人。

Google 發布 Gemini 3.1 Pro:ARC-AGI-2 77.1%,把『高難推理』推進日常開發流程

Google 發布 Gemini 3.1 Pro(preview),主打更強核心推理能力,並宣稱在 ARC-AGI-2 取得 77.1% 驗證分數。3.1 Pro 同步進入 API、Vertex AI、Gemini App 與 NotebookLM。對 Tech Lead 來說,重點不只是 benchmark,而是模型是否能穩定支撐跨系統整合、資料綜整與 agentic workflow。