inference-speed
2 篇文章
打字機 vs 編輯:Mercury 2 用 Diffusion 架構重新發明 LLM,推理速度快 5 倍、價格砍到 1/4
Inception Labs 發佈 Mercury 2——全球第一個具備 reasoning 能力的 Diffusion LLM。不同於傳統「一個字一個字吐」的自迴歸模型,Mercury 2 像編輯一樣同時修改整段文字,推理速度達 1,008 tokens/sec,比 Claude 4.5 Haiku 快 5 倍,價格便宜 4 倍。Andrew Ng 和 Karpathy 都是投資人。
快不等於好 — Anthropic Fast Mode vs OpenAI Codex Spark 的技術路線之爭
同一週內 Anthropic 和 OpenAI 各端出一盤加速菜:Fast Mode 用同模型衝 2.5 倍速、Codex Spark 用 Cerebras 晶圓級晶片飆到 1000 token/s。一個賭「不犯錯」,一個賭「即時互動」。這不是速度比拼——是精算師 vs 探險家的產品哲學之爭。