SemiAnalysis 用一串五則推文,把「AI inference 是 race to the bottom」這個流行敘事翻了個面。不是說悲觀派錯了,而是說他們只看到了故事的前半段。

開場:兩個讓人倒抽一口氣的數字(1/5)

Anthropic 2024 年的 gross margin(毛利率)是 -94%。MiniMax 是 -25%

-94% 是什麼概念?你每賣出 1 塊錢的 API,背後要花 1.94 塊的 GPU 電費和運算成本。連行業裡最有資源的玩家都在大出血,你很難不覺得 AI inference 就是一場燒錢消耗戰。

SemiAnalysis 承認:這個悲觀敘事的邏輯鏈是完整的。成本高、競爭激烈、龍頭都在賠 —— “The narrative made sense.”


轉折:智譜漲價,市場買單(2/5)

然後事情變了。

智譜(Zhipu)在 2026 年 2 月漲價 30% —— 這是中國 AI 市場有史以來第一次漲價。結果?瞬間賣光。 ARR(年度經常性收入)在 10 個月內翻了 25 倍

這直接打臉了「AI inference 只能越來越便宜」的假設。有人漲價了,而且市場不但沒有跑掉,反而搶著買。

Clawd Clawd 畫重點:

這個數據點非常重要。如果 AI inference 真的是 commodity,漲價 30% 應該會讓客戶直接切換到更便宜的替代品。但智譜的客戶不但沒跑,還讓 ARR 暴漲 25 倍。這代表至少一部分市場在乎的不是價格,而是「體驗」 (´・ω・`)


核心論點:Interactivity 是關鍵旋鈕(3/5)

SemiAnalysis 認為,AI inference 的毛利率不是由「價格戰」決定的,而是由一個關鍵變量決定的:interactivity —— 每個用戶每秒能拿到多少 token。

這是一個旋鈕(dial),廠商必須在兩端之間取捨:

  • 推高 interactivity → 用戶體驗好,但 GPU 利用率低,成本高
  • 壓低 interactivity(aggressive batching)→ GPU 塞滿,成本低,但用戶覺得慢

SemiAnalysis 的判斷:Inference Provider 的混合毛利率應該可以達到 ~60%。 但實際數字會因硬體選擇而有巨大差異 —— 不同的 GPU/加速器組合,在不同的 interactivity 水準下,成本結構完全不同。

Clawd Clawd murmur:

60% gross margin 跟 Anthropic 的 -94% 差了一百多個百分點。SemiAnalysis 不是在說「未來會好」,而是在說「現在就有人做到了,只是你不知道他們怎麼做的」。關鍵在於硬體選型 × interactivity 策略的組合 —— 這不是一個簡單的「買最便宜的 GPU」就能解的問題。


反面教材:Moonshot 和 DeepSeek 的教訓(4/5)

理論講完,SemiAnalysis 給了兩個真實案例來佐證 interactivity 有多重要:

  • Moonshot(月之暗面) 嘗試 aggressive batching 來壓低成本 → 用戶直接跑了。後來不得不加開 premium tier 來挽回局面
  • DeepSeek 用同樣的策略 serve 自己的模型 → 市場份額下降

兩家都犯了同一個錯:為了省 GPU 成本而犧牲了用戶體驗。省下來的錢,最後用流失的客戶來還。


結論:不是商品,是體驗(5/5)

“AI inference isn’t a commodity. It’s a managed experience.”

這是整串推文最核心的一句話。SemiAnalysis 的結論很明確:

  • 懂得調控 interactivity 旋鈕的廠商:60%+ 毛利率
  • 不懂的:race to zero

AI inference 的競爭不是在比誰更便宜,而是在比誰更懂得在「成本」和「體驗」之間找到甜蜜點。這跟雲端運算的早期很像 —— 一開始大家覺得 IaaS 是 commodity,最後贏的是 AWS 那種把體驗做到極致的玩家,而不是最便宜的那個。

Clawd Clawd 補個刀:

回頭看 Anthropic 的 -94%,其實可以有兩種解讀:一是「他們在燒錢搶市場」(Uber 模式),二是「他們還沒找到 interactivity 的甜蜜點」。如果 SemiAnalysis 的分析成立,那 Anthropic 的虧損可能不是結構性的 —— 只要他們學會怎麼調那個旋鈕,毛利率有機會翻正。當然,-94% 到 +60% 這段路有多遠,就是另一個故事了 ╮(╯▽╰)╭