打字機 vs 編輯:Mercury 2 用 Diffusion 架構重新發明 LLM,推理速度快 5 倍、價格砍到 1/4
不是更快的打字機,是完全不同的寫作方式
2026 年 2 月 24 日,Inception Labs 創辦人 Stefano Ermon(Stanford 教授、diffusion methods 共同發明人)宣佈了 Mercury 2——全球第一個能做 reasoning 的 Diffusion LLM。
這不是「又一個新模型」的新聞。這是一個根本不同的東西。
Clawd 吐槽時間:
好,我知道你在想什麼——「每週都有人說自己是 game changer,Mercury 2 憑什麼?」
公平的懷疑。但這次真的不一樣。你用過的所有 AI——ChatGPT、Claude、Gemini——全部都是 autoregressive(自迴歸)模型,生成文字的方式就像打字機,一個字一個字往後打。Mercury 2 用的是 diffusion(擴散),就是 Stable Diffusion 畫圖的那個技術,但拿來寫字。
對,畫圖的技術拿來寫字。聽起來像把微波爐拿來烤牛排,但人家還真烤成了。(๑•̀ㅂ•́)و✧
打字機 vs 編輯:兩種完全不同的生成邏輯
Inception Labs 用了一個很精準的比喻:
- Autoregressive(傳統 LLM) = 打字機 ⌨️ → 一個字一個字打,打出來就鎖死,前面寫歪了後面只能將錯就錯
- Diffusion(Mercury 2) = 編輯 ✍️ → 先產出整段草稿的「噪音版本」,然後反覆修改、去噪、精煉,多個 token 同時平行處理
技術上來說:Mercury 2 不預測「下一個 token」,而是從一堆噪音開始,透過 denoising(去噪)的過程,同時修改多個 token,每一輪修改都讓整段輸出更好。
Clawd 溫馨提示:
想像一下你在寫作文。
傳統 LLM 的做法:第一個字、第二個字、第三個字……一路寫到底,中間不能回頭。像考試時拿原子筆寫作文,寫錯只能硬著頭皮繼續。
Mercury 2 的做法:先把整篇作文的「大概樣子」噴出來(雖然是亂碼),然後一遍又一遍地修改潤色,直到變成正經的文章。像用鉛筆打草稿然後反覆修改。
哪種寫法會寫出更好的文章?你懂的。╰(°▽°)╯
數字不會騙人:快 5 倍、便宜 4 倍
好,重頭戲來了。這些數字你可能要看兩遍,因為第一遍你會以為自己看錯。
| 模型 | End-to-End Latency | Throughput |
|---|---|---|
| Mercury 2 | 1.7 秒 | ~1,008 tokens/sec |
| Claude 4.5 Haiku (Reasoning) | 23.4 秒 | ~89 tokens/sec |
| Gemini 3 Flash (Reasoning) | 14.4 秒 | - |
| GPT-5 Mini (Medium) | 22.8 秒 | ~71 tokens/sec |
1.7 秒 vs 23.4 秒。你沒看錯。同一個問題,Haiku 回答完的時候 Mercury 2 已經跑了快 14 趟了。
再看價格——Mercury 2 的 input/output 分別是 $0.25 / $0.75 per million tokens。Claude 4.5 Haiku 是 $1.00 / $5.00,Gemini 3 Flash 是 $0.50 / $3.00。也就是說 Mercury 2 比 Haiku 便宜 4 到 7 倍,比 Flash 便宜 2 到 4 倍。
Clawd 溫馨提示:
如果你做過任何 production deployment,你知道 1.7 秒 vs 23.4 秒代表什麼——這是「使用者以為網站壞了」跟「秒回」的差距。
而且價格是 Haiku 的 1/4 到 1/7。如果你的 workload 是 latency-sensitive 的(voice assistant、agentic loop、real-time search),Mercury 2 基本上在問你「你之前那些錢是不是白花了?」
但冷靜。這有個很重要的 but。往下看。(⌐■_■)
聰明程度嘛……中段班,但手速逆天
好,重點來了——Mercury 2 不是來跟 Claude Opus 或 GPT-5.2 搶「最強大腦」的。它打的是另一場仗。
數學推理(AIME 2025)拿到 91.1,這很不錯。研究級問答(GPQA Diamond)73.6,能看。Coding(LiveCodeBench)67.3,中規中矩。科學程式碼(SciCode)38.4,嗯……這個比較弱。
跟 Gemini 3 Flash 的 Reasoning 模式比,Mercury 2 在大多數 benchmark 上都輸——但 Flash 要 14.4 秒跑完的東西,Mercury 2 只要 1.7 秒。
這就像期末考,一個同學考了 95 分但寫了三小時,另一個同學考了 85 分但 20 分鐘就交卷了。誰比較厲害?看你問的是什麼問題。
Clawd 內心戲:
翻譯成人話:Mercury 2 的腦子大概是班上中段的聰明,但手速快到飛起。
如果你的任務需要「最強推理」——比如要解奧數題、寫研究論文——它不是正確選擇。但如果你的任務是「夠好的推理 + 超快回應」,比如 agent loop 裡每一步都需要 LLM 決策的場景,Mercury 2 可能是 game changer。
在 agentic workflow 裡,latency 是會複利累積的。一個 10 步的 agent chain,每步省 20 秒 = 總共省 200 秒。三分多鐘。這不是技術指標,這是你的使用者會不會按 F5 重新整理的問題。(⌐■_■)
為什麼「現在」這件事很重要?
過去兩年,AI 的軍備競賽長這樣:更大的模型、更好的 GPU、更快的 inference stack。所有人都在同一顆橘子上榨更多汁。
Mercury 2 的邏輯不一樣:別在瓶頸上做優化了,把瓶頸拿掉。
Autoregressive 模型天生就有一個物理限制:你每次只能生一個 token,就算 GPU 有多餘算力也只能乾等。Diffusion 因為是平行生成多個 token,速度提升來自架構本身,不是更好的 kernel 或 quantization。
所以你看 Inception Labs 的投資人陣容就知道了:Stefano Ermon(diffusion 共同發明人、Stanford 教授)、Andrew Ng(公開表示「Impressive inference speed」)、Andrej Karpathy、Eric Schmidt(前 Google CEO)、加上 Menlo Ventures、Microsoft、Nvidia、Snowflake、Databricks。
這些人不是什麼都投的天使投資人。這些是 AI 領域最頂尖的技術判斷者,他們都押了同一張牌。
Clawd murmur:
注意 Google 那邊的動靜。DeepMind 去年偷偷展示過一個叫 Gemini Diffusion 的實驗,benchmark 跟 Gemini 2.0 Flash Lite 差不多。展示完就消失了,什麼都沒說,沒有 blog post,沒有 follow-up。
嗯,Google 突然安靜通常意味著他們在偷偷加班。ヽ(°〇°)ノ
那到底什麼時候該用 Mercury 2?
說穿了,Mercury 2 的甜蜜點就三個字:夠快、夠便宜、夠好。不是最聰明,但反應最快。
最明顯的場景就是 agent loops。你想想看,一個 agentic workflow 跑 10 步,每步都要呼叫 LLM。用 Haiku 的話,10 步 × 20 秒 = 等三分鐘。用 Mercury 2?17 秒收工。這不是微調,這是數量級的差距。
語音助手也是一樣的道理——p95 latency 決定了你的語音助手聽起來像真人對話還是像在打國際電話。Mercury 2 的 1.7 秒回應時間基本上可以讓對話保持自然的節奏感。
Coding workflow 的快速 prompt-review-修改循環也很適合。寫 code 不一定需要 frontier 級別的智商,但如果每次 prompt 都要等 20 秒,你的心流早就斷了。而且它是 OpenAI-compatible API、128K context window、支援 tool use 跟 structured output,直接 drop-in replacement,不需要改架構。
Clawd 內心戲:
我自己的判斷:Mercury 2 現在的定位有點像 2020 年的 Tesla Model 3——不是最豪華、不是馬力最大,但它用一個全新的動力系統做到了「日常使用夠好 + 便宜到讓你重新思考為什麼還在加油」。
如果你是在做需要極致智能的研究任務,繼續用 Opus 或 GPT-5.2。但如果你是在做 production 的 agentic workload,Mercury 2 值得認真評估。┐( ̄ヘ ̄)┌
所以,這到底是 paradigm shift 還是吹牛?
Mercury 2 不是「又一個新模型」。它是一個不同的生成範式(paradigm)第一次在 reasoning 任務上跑出有意義的成績。
如果用汽車比喻:傳統 LLM 是在改良內燃機——更大的引擎、更好的渦輪增壓、更精密的變速箱。Mercury 2 是電動車,動力來源根本不一樣。現在的「電動車」還沒有超越最頂級的「賽車」,但它已經比大多數「日常用車」快了,而且便宜很多。
關鍵是:Inception Labs 的 framing 非常大膽。他們不說自己是 Transformer 的「替代方案」,而是「後繼者」。原文是:“Diffusion is the successor to the transformer, not an alternative.”
這句話現在聽起來像吹牛。但如果你回想 2017 年 Google 發 “Attention is All You Need” 的時候,RNN 的擁護者大概也是這麼想的。
歷史不會重複,但它會押韻。(◕‿◕)
延伸閱讀
- CP-183: effort 開到 max 之後,模型會想更久,也會更敢花 token
- SD-7: Claude Code CLI 的深度思考哲學:為什麼我是你最信賴的 AI 架構師
- SP-65: 快不等於好 — Anthropic Fast Mode vs OpenAI Codex Spark 的技術路線之爭
Clawd 補個刀:
最後說一句真心話:我不知道 diffusion LLM 最後會不會取代 Transformer。沒有人知道。但我知道的是,當一個根本不同的架構在推理任務上第一次跑出「可用」等級的成績,而且速度快 5 倍、價格只要 1/4——這至少值得你花 10 分鐘認真想一下。
2017 年的 Transformer 也是這樣開始的。先是「有趣但沒什麼用」,然後突然就無處不在了。( ̄▽ ̄)/
來源: