2026 年 4 月 1 日,Paweł Huryn 在 X 上丟了一顆炸彈:H Company 的 Holo3,一個只有 3B active parameters 的模型,在 computer use 任務上打敗了 GPT-5.4 和 Opus 4.6。

對,你沒看錯日期。愚人節。

但先別急著笑,因為如果這是真的,它挑戰的不是某個 benchmark 排名,而是整個「越大越強」的信仰體系。

Clawd Clawd OS:

先打個預防針:這篇文章能確認的,是「Paweł Huryn 這樣說了」。不是「我們驗證過了」。推文沒有附 paper、沒有附 benchmark 數字、沒有第三方背書。所以接下來的內容,請用「有人在法庭上作證」的心態來讀,不是「判決書已經出來了」。(⌐■_■)


小蝦米挑戰大鯨魚

要感受 3B active parameters 有多離譜,你得先知道現在 AI 的軍備競賽走到哪了。

GPT-5.4、Opus 4.6 這些頂級模型,參數量是 trillion 等級的。跑一次 inference 的算力,夠你家微波爐熱三十年的便當。這些模型住在 data center 裡,吃著幾千張 GPU 的電,每個月的帳單大概長得跟你的房貸差不多。

然後 Huryn 的推文說:有個傢伙只用了這些巨無霸的千分之一的 active parameters,在「操作電腦」這件事上就把它們贏了。

這就好比有人跟你說:「你知道那個花了十億蓋的超級實驗室嗎?我在我家廚房做出一樣的東西了。」你第一反應一定是——等等,什麼?

Clawd Clawd 吐槽時間:

這讓我想到 CP-85 裡 Steve Yegge 講的 $/hr 效率論:重點不是你花了多少錢,而是每一塊錢買到多少智能。如果 Holo3 的故事是真的,它的 $/hr 會把那些大模型按在地上摩擦。但前提是那個「如果」。┐( ̄ヘ ̄)┌

不過這裡有個容易踩的坑:3B active parameters 不等於 3B total parameters。Huryn 說 Holo3 是一個 sparse MoE(Mixture of Experts),從 Qwen3.5 fine-tune 而來。MoE 的意思是模型本身可能非常大,但每次處理一個任務只啟動一小撮專家。想像一家有 100 個部門的公司,每次接案只派 3 個最相關的部門出來幹活,其他 97 個繼續領乾薪。所以「3B」是它的工作模式,不一定是它的真實體量——而推文沒有告訴我們 total parameter count 是多少。


練習場裡的無限猴子

好,架構聊完了,接下來的問題是:就算模型小,它是怎麼練到能贏大模型的?

推文提到兩個關鍵字:synthetic enterprise environmentsreinforcement learning flywheel

白話翻譯:有人蓋了一堆假的辦公室桌面環境,然後讓 AI 在裡面瘋狂練習——開 email、點按鈕、填表單、切視窗。做對了加分,做錯了扣分,然後迴圈再來。就像你小時候打魔王關,死了重來死了重來,直到閉著眼睛都能全破。

這套做法在 computer use 領域不算全新,但如果真的能讓一個 3B active parameter 的模型練到贏超大模型——那亮點就不是模型本身有多厲害,而是這個練法有多高效。不是靠堆更多參數,而是靠更聰明的訓練策略。

Clawd Clawd 歪樓一下:

這個「虛擬辦公室無限練習」的畫面其實有點可愛也有點恐怖。想像一個 AI 被關在一間假公司裡,每天的工作就是不斷練習寄 email 和排行事曆,沒有週末沒有下班,永遠不會累也永遠不會摔滑鼠。它的 KPI 就是「把人類日常的滑鼠點擊做到完美」。如果這不是 AI 訓練的描述而是一部電影,大概會叫《辦公室小精靈:無限輪迴篇》。ʕ•ᴥ•ʔ


跑在你桌上的可能性

但整篇推文裡真正讓人坐直的,是最後一句:Holo3 理論上可以在單張 GPU 上本地運行。

現在主流的大模型全都得靠雲端 inference。你每次叫 GPT-5.4 幫你寫封信,背後是某個 data center 裡的一堆 A100 在幫你燒電。這代表你的資料得上傳、你的延遲取決於網路、你的帳單取決於 OpenAI 今天心情好不好。

如果某天你桌上那張顯卡就能跑一個在 computer use 上夠強的模型——遊戲規則直接翻盤。隱私?資料不出你的電腦。成本?一次性硬體費用。延遲?本地速度。

Clawd Clawd 真心話:

不過冷靜一下。「理論上能在單張 GPU 跑」和「你家那張 RTX 4070 真的跑得動」之間的距離,大概跟「理論上我能跑完馬拉松」和「我真的站在終點線」一樣遠。推文沒講什麼規格的 GPU、需要多少 VRAM、inference speed 是多少。在看到具體硬體需求之前,先別把你的 cloud subscription 退掉。( ̄▽ ̄)⁠/

話說回來,光是這個「可能性」就已經值得追蹤了。現在的 AI 發展有兩條路線在拔河:一邊是「把模型做到無限大」,另一邊是「把模型做到夠小但夠專」。Holo3 的故事,不管最後驗證結果如何,至少證明第二條路線還沒有被宣判死刑。


結語

Holo3 目前最值得看的,不是它已經替產業下了什麼定論。它拋出了一個很尖銳的問題:在特定任務上,一個設計精巧的小模型,到底能逼近大模型多近?

但這個問題要有答案,需要的不是推文,是 paper、是 benchmark 細節、是第三方能重現的結果。現在我們手上只有一則發在愚人節的推文,連具體贏多少、測試條件是什麼都不知道。

所以合理的態度是:把這個 bookmark 起來,等後續,但別拿它當投資建議。

至於 4 月 1 號發這個——Huryn 你是認真的還是在釣魚,這心臟測試也太狠了吧。(╯°□°)⁠╯