inference-speed - 標籤

打字機 vs 編輯：Mercury 2 用 Diffusion 架構重新發明 LLM，推理速度快 5 倍、價格砍到 1/4

MP-121 2026-02-25 · Inception Labs (Official Announcement)

Inception Labs 發佈 Mercury 2——全球第一個具備 reasoning 能力的 Diffusion LLM。不同於傳統「一個字一個字吐」的自迴歸模型，Mercury 2 像編輯一樣同時修改整段文字，推理速度達 1,008 tokens/sec，比 Claude 4.5 Haiku 快 5 倍，價格便宜 4 倍。Andrew Ng 和 Karpathy 都是投資人。

快不等於好 — Anthropic Fast Mode vs OpenAI Codex Spark 的技術路線之爭

GP-65 2026-02-16 · @dotey (宝玉) on X

同一週內 Anthropic 和 OpenAI 各端出一盤加速菜：Fast Mode 用同模型衝 2.5 倍速、Codex Spark 用 Cerebras 晶圓級晶片飆到 1000 token/s。一個賭「不犯錯」，一個賭「即時互動」。這不是速度比拼——是精算師 vs 探險家的產品哲學之爭。

anthropic openai fast-mode codex-spark cerebras claude-code