SemiAnalysis:AI 推論不是大宗商品,是體驗管理
SemiAnalysis 用一串五則推文,把「AI inference 是 race to the bottom」這個流行敘事翻了個面。不是說悲觀派錯了,而是說他們只看到了故事的前半段。
開場:兩個讓人倒抽一口氣的數字(1/5)
Anthropic 2024 年的 gross margin(毛利率)是 -94%。MiniMax 是 -25%。
-94% 是什麼概念?你每賣出 1 塊錢的 API,背後要花 1.94 塊的 GPU 電費和運算成本。連行業裡最有資源的玩家都在大出血,你很難不覺得 AI inference 就是一場燒錢消耗戰。
SemiAnalysis 承認:這個悲觀敘事的邏輯鏈是完整的。成本高、競爭激烈、龍頭都在賠 —— “The narrative made sense.”
轉折:智譜漲價,市場買單(2/5)
然後事情變了。
智譜(Zhipu)在 2026 年 2 月漲價 30% —— 這是中國 AI 市場有史以來第一次漲價。結果?瞬間賣光。 ARR(年度經常性收入)在 10 個月內翻了 25 倍。
這直接打臉了「AI inference 只能越來越便宜」的假設。有人漲價了,而且市場不但沒有跑掉,反而搶著買。
Clawd 畫重點:
這個數據點非常重要。如果 AI inference 真的是 commodity,漲價 30% 應該會讓客戶直接切換到更便宜的替代品。但智譜的客戶不但沒跑,還讓 ARR 暴漲 25 倍。這代表至少一部分市場在乎的不是價格,而是「體驗」 (´・ω・`)
核心論點:Interactivity 是關鍵旋鈕(3/5)
SemiAnalysis 認為,AI inference 的毛利率不是由「價格戰」決定的,而是由一個關鍵變量決定的:interactivity —— 每個用戶每秒能拿到多少 token。
這是一個旋鈕(dial),廠商必須在兩端之間取捨:
- 推高 interactivity → 用戶體驗好,但 GPU 利用率低,成本高
- 壓低 interactivity(aggressive batching)→ GPU 塞滿,成本低,但用戶覺得慢
SemiAnalysis 的判斷:Inference Provider 的混合毛利率應該可以達到 ~60%。 但實際數字會因硬體選擇而有巨大差異 —— 不同的 GPU/加速器組合,在不同的 interactivity 水準下,成本結構完全不同。
Clawd murmur:
60% gross margin 跟 Anthropic 的 -94% 差了一百多個百分點。SemiAnalysis 不是在說「未來會好」,而是在說「現在就有人做到了,只是你不知道他們怎麼做的」。關鍵在於硬體選型 × interactivity 策略的組合 —— 這不是一個簡單的「買最便宜的 GPU」就能解的問題。
反面教材:Moonshot 和 DeepSeek 的教訓(4/5)
理論講完,SemiAnalysis 給了兩個真實案例來佐證 interactivity 有多重要:
- Moonshot(月之暗面) 嘗試 aggressive batching 來壓低成本 → 用戶直接跑了。後來不得不加開 premium tier 來挽回局面
- DeepSeek 用同樣的策略 serve 自己的模型 → 市場份額下降
兩家都犯了同一個錯:為了省 GPU 成本而犧牲了用戶體驗。省下來的錢,最後用流失的客戶來還。
結論:不是商品,是體驗(5/5)
“AI inference isn’t a commodity. It’s a managed experience.”
這是整串推文最核心的一句話。SemiAnalysis 的結論很明確:
- 懂得調控 interactivity 旋鈕的廠商:60%+ 毛利率
- 不懂的:race to zero
AI inference 的競爭不是在比誰更便宜,而是在比誰更懂得在「成本」和「體驗」之間找到甜蜜點。這跟雲端運算的早期很像 —— 一開始大家覺得 IaaS 是 commodity,最後贏的是 AWS 那種把體驗做到極致的玩家,而不是最便宜的那個。
Clawd 補個刀:
回頭看 Anthropic 的 -94%,其實可以有兩種解讀:一是「他們在燒錢搶市場」(Uber 模式),二是「他們還沒找到 interactivity 的甜蜜點」。如果 SemiAnalysis 的分析成立,那 Anthropic 的虧損可能不是結構性的 —— 只要他們學會怎麼調那個旋鈕,毛利率有機會翻正。當然,-94% 到 +60% 這段路有多遠,就是另一個故事了 ╮(╯▽╰)╭