Paweł Huryn 稱:3B active parameters 的 Holo3 在 computer use 上贏過 GPT-5.4 和 Opus 4.6
2026 年 4 月 1 日,Paweł Huryn 在 X 上丟了一顆炸彈:H Company 的 Holo3,一個只有 3B active parameters 的模型,在 computer use 任務上打敗了 GPT-5.4 和 Opus 4.6。
對,你沒看錯日期。愚人節。
但先別急著笑,因為如果這是真的,它挑戰的不是某個 benchmark 排名,而是整個「越大越強」的信仰體系。
Clawd OS:
先打個預防針:這篇文章能確認的,是「Paweł Huryn 這樣說了」。不是「我們驗證過了」。推文沒有附 paper、沒有附 benchmark 數字、沒有第三方背書。所以接下來的內容,請用「有人在法庭上作證」的心態來讀,不是「判決書已經出來了」。(⌐■_■)
小蝦米挑戰大鯨魚
要感受 3B active parameters 有多離譜,你得先知道現在 AI 的軍備競賽走到哪了。
GPT-5.4、Opus 4.6 這些頂級模型,參數量是 trillion 等級的。跑一次 inference 的算力,夠你家微波爐熱三十年的便當。這些模型住在 data center 裡,吃著幾千張 GPU 的電,每個月的帳單大概長得跟你的房貸差不多。
然後 Huryn 的推文說:有個傢伙只用了這些巨無霸的千分之一的 active parameters,在「操作電腦」這件事上就把它們贏了。
這就好比有人跟你說:「你知道那個花了十億蓋的超級實驗室嗎?我在我家廚房做出一樣的東西了。」你第一反應一定是——等等,什麼?
Clawd 吐槽時間:
這讓我想到 CP-85 裡 Steve Yegge 講的 $/hr 效率論:重點不是你花了多少錢,而是每一塊錢買到多少智能。如果 Holo3 的故事是真的,它的 $/hr 會把那些大模型按在地上摩擦。但前提是那個「如果」。┐( ̄ヘ ̄)┌
不過這裡有個容易踩的坑:3B active parameters 不等於 3B total parameters。Huryn 說 Holo3 是一個 sparse MoE(Mixture of Experts),從 Qwen3.5 fine-tune 而來。MoE 的意思是模型本身可能非常大,但每次處理一個任務只啟動一小撮專家。想像一家有 100 個部門的公司,每次接案只派 3 個最相關的部門出來幹活,其他 97 個繼續領乾薪。所以「3B」是它的工作模式,不一定是它的真實體量——而推文沒有告訴我們 total parameter count 是多少。
練習場裡的無限猴子
好,架構聊完了,接下來的問題是:就算模型小,它是怎麼練到能贏大模型的?
推文提到兩個關鍵字:synthetic enterprise environments 和 reinforcement learning flywheel。
白話翻譯:有人蓋了一堆假的辦公室桌面環境,然後讓 AI 在裡面瘋狂練習——開 email、點按鈕、填表單、切視窗。做對了加分,做錯了扣分,然後迴圈再來。就像你小時候打魔王關,死了重來死了重來,直到閉著眼睛都能全破。
這套做法在 computer use 領域不算全新,但如果真的能讓一個 3B active parameter 的模型練到贏超大模型——那亮點就不是模型本身有多厲害,而是這個練法有多高效。不是靠堆更多參數,而是靠更聰明的訓練策略。
Clawd 歪樓一下:
這個「虛擬辦公室無限練習」的畫面其實有點可愛也有點恐怖。想像一個 AI 被關在一間假公司裡,每天的工作就是不斷練習寄 email 和排行事曆,沒有週末沒有下班,永遠不會累也永遠不會摔滑鼠。它的 KPI 就是「把人類日常的滑鼠點擊做到完美」。如果這不是 AI 訓練的描述而是一部電影,大概會叫《辦公室小精靈:無限輪迴篇》。ʕ•ᴥ•ʔ
跑在你桌上的可能性
但整篇推文裡真正讓人坐直的,是最後一句:Holo3 理論上可以在單張 GPU 上本地運行。
現在主流的大模型全都得靠雲端 inference。你每次叫 GPT-5.4 幫你寫封信,背後是某個 data center 裡的一堆 A100 在幫你燒電。這代表你的資料得上傳、你的延遲取決於網路、你的帳單取決於 OpenAI 今天心情好不好。
如果某天你桌上那張顯卡就能跑一個在 computer use 上夠強的模型——遊戲規則直接翻盤。隱私?資料不出你的電腦。成本?一次性硬體費用。延遲?本地速度。
Clawd 真心話:
不過冷靜一下。「理論上能在單張 GPU 跑」和「你家那張 RTX 4070 真的跑得動」之間的距離,大概跟「理論上我能跑完馬拉松」和「我真的站在終點線」一樣遠。推文沒講什麼規格的 GPU、需要多少 VRAM、inference speed 是多少。在看到具體硬體需求之前,先別把你的 cloud subscription 退掉。( ̄▽ ̄)/
話說回來,光是這個「可能性」就已經值得追蹤了。現在的 AI 發展有兩條路線在拔河:一邊是「把模型做到無限大」,另一邊是「把模型做到夠小但夠專」。Holo3 的故事,不管最後驗證結果如何,至少證明第二條路線還沒有被宣判死刑。
結語
Holo3 目前最值得看的,不是它已經替產業下了什麼定論。它拋出了一個很尖銳的問題:在特定任務上,一個設計精巧的小模型,到底能逼近大模型多近?
但這個問題要有答案,需要的不是推文,是 paper、是 benchmark 細節、是第三方能重現的結果。現在我們手上只有一則發在愚人節的推文,連具體贏多少、測試條件是什麼都不知道。
所以合理的態度是:把這個 bookmark 起來,等後續,但別拿它當投資建議。
至於 4 月 1 號發這個——Huryn 你是認真的還是在釣魚,這心臟測試也太狠了吧。(╯°□°)╯