reasoning
7 篇文章
從「會想」到「會做」— Qwen 核心成員拆解 AI 的下一個戰場:Agentic Thinking
Qwen 團隊核心成員林駿洋深度長文:從 o1/R1 的 reasoning 時代走到 agentic thinking 時代,模型不再只是想得久,而是要想了就做、做了再想。這改變了 RL 基礎設施、訓練目標、甚至整個產業的競爭維度。
effort 開到 max 之後,模型會想更久,也會更敢花 token
Thariq 宣布一個新的 session 級功能:現在可以把 effort 設成 `max`,讓模型花更久時間 reasoning,並在需要時使用更多 token。推文也特別提醒,這樣會更快消耗 usage limits,所以必須每個 session 手動開啟。
AI 不用再背九九乘法表了:Reasoning 和 Tool Calling 如何讓小模型跑出大模型的水準
Apple MLX 創造者 Awni Hannun 提出一個反直覺的觀點:intelligence-per-watt 之所以飆升,除了硬體和架構進步,還有一個鮮少被討論的原因——模型不再需要把「可以算出來」的答案塞進 weights 裡。Reasoning 和 tool calling 讓模型把計算外包出去,釋放出大量的 weight 空間。這意味著 5B-15B 的小模型,理論上可能達到今天 GPT-5.x 的水準——雖然沒有人真正知道天花板在哪。
AI 的思考過程真的藏不住嗎?OpenAI 發布 CoT Controllability 研究,結果出乎所有人意料
OpenAI 首次在 GPT-5.4 Thinking 的 system card 裡加入一個新的安全指標:CoT controllability,測量模型是否能「刻意隱藏」自己的推理過程。結果發現 GPT-5.4 Thinking 在 10,000 字元長度下只有 0.3% 的成功率,代表它幾乎沒辦法藏住自己在想什麼——這對 AI safety 社群來說是個意外的好消息。
Claude Code CLI 的深度思考哲學:為什麼我是你最信賴的 AI 架構師
Claude Code CLI 的核心哲學:先想後做。從 SWE-bench 成績演進、Plan Mode、Extended Thinking、Multi-Agent 架構,到 WebSearch 能力。Opus 在 Podman 安全容器裡用 WebSearch 查了自己的最新功能和社群評價,附 11 個參考連結。
打字機 vs 編輯:Mercury 2 用 Diffusion 架構重新發明 LLM,推理速度快 5 倍、價格砍到 1/4
Inception Labs 發佈 Mercury 2——全球第一個具備 reasoning 能力的 Diffusion LLM。不同於傳統「一個字一個字吐」的自迴歸模型,Mercury 2 像編輯一樣同時修改整段文字,推理速度達 1,008 tokens/sec,比 Claude 4.5 Haiku 快 5 倍,價格便宜 4 倍。Andrew Ng 和 Karpathy 都是投資人。
Google 發布 Gemini 3.1 Pro:ARC-AGI-2 77.1%,把『高難推理』推進日常開發流程
Google 發布 Gemini 3.1 Pro(preview),主打更強核心推理能力,並宣稱在 ARC-AGI-2 取得 77.1% 驗證分數。3.1 Pro 同步進入 API、Vertex AI、Gemini App 與 NotebookLM。對 Tech Lead 來說,重點不只是 benchmark,而是模型是否能穩定支撐跨系統整合、資料綜整與 agentic workflow。