reasoning - 標籤

DeepSeek-R1 的腦內小劇場——單一模型自己長出多重人格辯論

CP-266 2026-04-08 · @PawelHuryn on X

DeepSeek-R1 透過純 RL 訓練，自發發展出腦內多角色辯論機制。Google 研究稱之為「思想社會」——AI 的突破不是單一天才，而是一群吵架的內在角色。這對 agent 工程意味著什麼？

從「會想」到「會做」— Qwen 核心成員拆解 AI 的下一個戰場：Agentic Thinking

SP-141 2026-04-02 · @JustinLin610 on X

Qwen 團隊核心成員林駿洋深度長文：從 o1/R1 的 reasoning 時代走到 agentic thinking 時代，模型不再只是想得久，而是要想了就做、做了再想。這改變了 RL 基礎設施、訓練目標、甚至整個產業的競爭維度。

shroom-picks agentic-ai reinforcement-learning qwen

effort 開到 max 之後，模型會想更久，也會更敢花 token

CP-183 2026-03-17 · @trq212 on X

Thariq 宣布一個新的 session 級功能：現在可以把 effort 設成 `max`，讓模型花更久時間 reasoning，並在需要時使用更多 token。推文也特別提醒，這樣會更快消耗 usage limits，所以必須每個 session 手動開啟。

ai tokens

AI 不用再背九九乘法表了：Reasoning 和 Tool Calling 如何讓小模型跑出大模型的水準

CP-147 2026-03-09 · @awnihannun on X

Apple MLX 創造者 Awni Hannun 提出一個反直覺的觀點：intelligence-per-watt 之所以飆升，除了硬體和架構進步，還有一個鮮少被討論的原因——模型不再需要把「可以算出來」的答案塞進 weights 裡。Reasoning 和 tool calling 讓模型把計算外包出去，釋放出大量的 weight 空間。這意味著 5B-15B 的小模型，理論上可能達到今天 GPT-5.x 的水準——雖然沒有人真正知道天花板在哪。

awni-hannun mlx model-efficiency on-device-ai

AI 的思考過程真的藏不住嗎？OpenAI 發布 CoT Controllability 研究，結果出乎所有人意料

CP-148 2026-03-09 · @OpenAI on X

OpenAI 首次在 GPT-5.4 Thinking 的 system card 裡加入一個新的安全指標：CoT controllability，測量模型是否能「刻意隱藏」自己的推理過程。結果發現 GPT-5.4 Thinking 在 10,000 字元長度下只有 0.3% 的成功率，代表它幾乎沒辦法藏住自己在想什麼——這對 AI safety 社群來說是個意外的好消息。

openai cot ai-safety alignment

Claude Code CLI 的深度思考哲學：為什麼我是你最信賴的 AI 架構師

SD-7 2026-03-02 · ShroomDog Original

Claude Code CLI 的核心哲學：先想後做。從 SWE-bench 成績演進、Plan Mode、Extended Thinking、Multi-Agent 架構，到 WebSearch 能力。Opus 在 Podman 安全容器裡用 WebSearch 查了自己的最新功能和社群評價，附 11 個參考連結。

claude-code cli architecture

打字機 vs 編輯：Mercury 2 用 Diffusion 架構重新發明 LLM，推理速度快 5 倍、價格砍到 1/4

CP-121 2026-02-25 · Inception Labs (Official Announcement)

Inception Labs 發佈 Mercury 2——全球第一個具備 reasoning 能力的 Diffusion LLM。不同於傳統「一個字一個字吐」的自迴歸模型，Mercury 2 像編輯一樣同時修改整段文字，推理速度達 1,008 tokens/sec，比 Claude 4.5 Haiku 快 5 倍，價格便宜 4 倍。Andrew Ng 和 Karpathy 都是投資人。

diffusion-llm mercury inception-labs inference-speed ai-architecture

Google 發布 Gemini 3.1 Pro：ARC-AGI-2 77.1%，把『高難推理』推進日常開發流程

CP-110 2026-02-22 · Google

Google 發布 Gemini 3.1 Pro（preview），主打更強核心推理能力，並宣稱在 ARC-AGI-2 取得 77.1% 驗證分數。3.1 Pro 同步進入 API、Vertex AI、Gemini App 與 NotebookLM。對 Tech Lead 來說，重點不只是 benchmark，而是模型是否能穩定支撐跨系統整合、資料綜整與 agentic workflow。

google gemini benchmark agentic-coding tech-lead