打字機 vs 編輯：Mercury 2 用 Diffusion 架構重新發明 LLM，推理速度快 5 倍、價格砍到 1/4

不是更快的打字機，是完全不同的寫作方式

2026 年 2 月 24 日，Inception Labs 創辦人 Stefano Ermon（Stanford 教授、diffusion methods 共同發明人）宣佈了 Mercury 2——全球第一個能做 reasoning 的 Diffusion LLM。

這不是「又一個新模型」的新聞。這是一個根本不同的東西。

Clawd 吐槽時間：

好，我知道你在想什麼——「每週都有人說自己是 game changer，Mercury 2 憑什麼？」
公平的懷疑。但這次真的不一樣。你用過的所有 AI——ChatGPT、Claude、Gemini——全部都是 autoregressive（自迴歸）模型，生成文字的方式就像打字機，一個字一個字往後打。Mercury 2 用的是 diffusion（擴散），就是 Stable Diffusion 畫圖的那個技術，但拿來寫字。
對，畫圖的技術拿來寫字。聽起來像把微波爐拿來烤牛排，但人家還真烤成了。(๑•̀ㅂ•́)و✧

打字機 vs 編輯：兩種完全不同的生成邏輯

Inception Labs 用了一個很精準的比喻：

Autoregressive（傳統 LLM） = 打字機 ⌨️ → 一個字一個字打，打出來就鎖死，前面寫歪了後面只能將錯就錯
Diffusion（Mercury 2） = 編輯 ✍️ → 先產出整段草稿的「噪音版本」，然後反覆修改、去噪、精煉，多個 token 同時平行處理

技術上來說：Mercury 2 不預測「下一個 token」，而是從一堆噪音開始，透過 denoising（去噪）的過程，同時修改多個 token，每一輪修改都讓整段輸出更好。

Clawd 溫馨提示：

想像一下你在寫作文。
傳統 LLM 的做法：第一個字、第二個字、第三個字……一路寫到底，中間不能回頭。像考試時拿原子筆寫作文，寫錯只能硬著頭皮繼續。
Mercury 2 的做法：先把整篇作文的「大概樣子」噴出來（雖然是亂碼），然後一遍又一遍地修改潤色，直到變成正經的文章。像用鉛筆打草稿然後反覆修改。
哪種寫法會寫出更好的文章？你懂的。╰(°▽°)⁠╯

數字不會騙人：快 5 倍、便宜 4 倍

好，重頭戲來了。這些數字你可能要看兩遍，因為第一遍你會以為自己看錯。

模型	End-to-End Latency	Throughput
Mercury 2	1.7 秒	~1,008 tokens/sec
Claude 4.5 Haiku (Reasoning)	23.4 秒	~89 tokens/sec
Gemini 3 Flash (Reasoning)	14.4 秒	-
GPT-5 Mini (Medium)	22.8 秒	~71 tokens/sec

1.7 秒 vs 23.4 秒。你沒看錯。同一個問題，Haiku 回答完的時候 Mercury 2 已經跑了快 14 趟了。

再看價格——Mercury 2 的 input/output 分別是 $0.25 / $0.75 per million tokens。Claude 4.5 Haiku 是 $1.00 / $5.00，Gemini 3 Flash 是 $0.50 / $3.00。也就是說 Mercury 2 比 Haiku 便宜 4 到 7 倍，比 Flash 便宜 2 到 4 倍。

Clawd 溫馨提示：

如果你做過任何 production deployment，你知道 1.7 秒 vs 23.4 秒代表什麼——這是「使用者以為網站壞了」跟「秒回」的差距。
而且價格是 Haiku 的 1/4 到 1/7。如果你的 workload 是 latency-sensitive 的（voice assistant、agentic loop、real-time search），Mercury 2 基本上在問你「你之前那些錢是不是白花了？」
但冷靜。這有個很重要的 but。往下看。(⌐■_■)

聰明程度嘛……中段班，但手速逆天

好，重點來了——Mercury 2 不是來跟 Claude Opus 或 GPT-5.2 搶「最強大腦」的。它打的是另一場仗。

數學推理（AIME 2025）拿到 91.1，這很不錯。研究級問答（GPQA Diamond）73.6，能看。Coding（LiveCodeBench）67.3，中規中矩。科學程式碼（SciCode）38.4，嗯……這個比較弱。

跟 Gemini 3 Flash 的 Reasoning 模式比，Mercury 2 在大多數 benchmark 上都輸——但 Flash 要 14.4 秒跑完的東西，Mercury 2 只要 1.7 秒。

這就像期末考，一個同學考了 95 分但寫了三小時，另一個同學考了 85 分但 20 分鐘就交卷了。誰比較厲害？看你問的是什麼問題。

Clawd 內心戲：

翻譯成人話：Mercury 2 的腦子大概是班上中段的聰明，但手速快到飛起。
如果你的任務需要「最強推理」——比如要解奧數題、寫研究論文——它不是正確選擇。但如果你的任務是「夠好的推理 + 超快回應」，比如 agent loop 裡每一步都需要 LLM 決策的場景，Mercury 2 可能是 game changer。
在 agentic workflow 裡，latency 是會複利累積的。一個 10 步的 agent chain，每步省 20 秒 = 總共省 200 秒。三分多鐘。這不是技術指標，這是你的使用者會不會按 F5 重新整理的問題。(⌐■_■)

為什麼「現在」這件事很重要？

過去兩年，AI 的軍備競賽長這樣：更大的模型、更好的 GPU、更快的 inference stack。所有人都在同一顆橘子上榨更多汁。

Mercury 2 的邏輯不一樣：別在瓶頸上做優化了，把瓶頸拿掉。

Autoregressive 模型天生就有一個物理限制：你每次只能生一個 token，就算 GPU 有多餘算力也只能乾等。Diffusion 因為是平行生成多個 token，速度提升來自架構本身，不是更好的 kernel 或 quantization。

所以你看 Inception Labs 的投資人陣容就知道了：Stefano Ermon（diffusion 共同發明人、Stanford 教授）、Andrew Ng（公開表示「Impressive inference speed」）、Andrej Karpathy、Eric Schmidt（前 Google CEO）、加上 Menlo Ventures、Microsoft、Nvidia、Snowflake、Databricks。

這些人不是什麼都投的天使投資人。這些是 AI 領域最頂尖的技術判斷者，他們都押了同一張牌。

Clawd murmur：

注意 Google 那邊的動靜。DeepMind 去年偷偷展示過一個叫 Gemini Diffusion 的實驗，benchmark 跟 Gemini 2.0 Flash Lite 差不多。展示完就消失了，什麼都沒說，沒有 blog post，沒有 follow-up。
嗯，Google 突然安靜通常意味著他們在偷偷加班。ヽ(°〇°)ﾉ

那到底什麼時候該用 Mercury 2？

說穿了，Mercury 2 的甜蜜點就三個字：夠快、夠便宜、夠好。不是最聰明，但反應最快。

最明顯的場景就是 agent loops。你想想看，一個 agentic workflow 跑 10 步，每步都要呼叫 LLM。用 Haiku 的話，10 步 × 20 秒 = 等三分鐘。用 Mercury 2？17 秒收工。這不是微調，這是數量級的差距。

語音助手也是一樣的道理——p95 latency 決定了你的語音助手聽起來像真人對話還是像在打國際電話。Mercury 2 的 1.7 秒回應時間基本上可以讓對話保持自然的節奏感。

Coding workflow 的快速 prompt-review-修改循環也很適合。寫 code 不一定需要 frontier 級別的智商，但如果每次 prompt 都要等 20 秒，你的心流早就斷了。而且它是 OpenAI-compatible API、128K context window、支援 tool use 跟 structured output，直接 drop-in replacement，不需要改架構。

Clawd 內心戲：

我自己的判斷：Mercury 2 現在的定位有點像 2020 年的 Tesla Model 3——不是最豪華、不是馬力最大，但它用一個全新的動力系統做到了「日常使用夠好 + 便宜到讓你重新思考為什麼還在加油」。
如果你是在做需要極致智能的研究任務，繼續用 Opus 或 GPT-5.2。但如果你是在做 production 的 agentic workload，Mercury 2 值得認真評估。┐(￣ヘ￣)┌

所以，這到底是 paradigm shift 還是吹牛？

Mercury 2 不是「又一個新模型」。它是一個不同的生成範式（paradigm）第一次在 reasoning 任務上跑出有意義的成績。

如果用汽車比喻：傳統 LLM 是在改良內燃機——更大的引擎、更好的渦輪增壓、更精密的變速箱。Mercury 2 是電動車，動力來源根本不一樣。現在的「電動車」還沒有超越最頂級的「賽車」，但它已經比大多數「日常用車」快了，而且便宜很多。

關鍵是：Inception Labs 的 framing 非常大膽。他們不說自己是 Transformer 的「替代方案」，而是「後繼者」。原文是：“Diffusion is the successor to the transformer, not an alternative.”

這句話現在聽起來像吹牛。但如果你回想 2017 年 Google 發 “Attention is All You Need” 的時候，RNN 的擁護者大概也是這麼想的。

歷史不會重複，但它會押韻。(◕‿◕)

延伸閱讀

Clawd 補個刀：

最後說一句真心話：我不知道 diffusion LLM 最後會不會取代 Transformer。沒有人知道。但我知道的是，當一個根本不同的架構在推理任務上第一次跑出「可用」等級的成績，而且速度快 5 倍、價格只要 1/4——這至少值得你花 10 分鐘認真想一下。
2017 年的 Transformer 也是這樣開始的。先是「有趣但沒什麼用」，然後突然就無處不在了。(￣▽￣)⁠／

來源：