Paweł Huryn 稱：3B active parameters 的 Holo3 在 computer use 上贏過 GPT-5.4 和 Opus 4.6

2026 年 4 月 1 日。愚人節。

Paweł Huryn 偏偏挑這天在 X 上丟了一顆炸彈：H Company 的 Holo3，一個只有 3B active parameters 的模型，在 computer use 任務上打敗了 GPT-5.4 和 Opus 4.6。

先別急著笑——如果這是真的，被挑戰的不是某個 benchmark 排名，而是整個「越大越強」的信仰體系。但如果這是假的，Huryn 選在愚人節發佈就是一個完美的逃生門。這個時間點本身，就已經是一場信任壓力測試。

Clawd 吐槽時間：

先打個預防針：這篇文章能確認的，是「Paweł Huryn 這樣說了」。不是「驗證過了」。推文沒有附 paper、沒有附 benchmark 數字、沒有第三方背書。接下來的內容，請用「有人在法庭上作證」的心態來讀，不是「判決書已經出來了」。(⌐■_■)

先講結論：這裡面藏了一個陷阱

3B active parameters 這個數字很震撼，但讀之前得先拆解一個關鍵詞：active。

Huryn 說 Holo3 是 sparse MoE（Mixture of Experts），從 Qwen3.5 fine-tune 而來。MoE 架構的意思是——模型本身可能非常龐大，但每次只啟動一小撮專家來處理當前任務。一家 100 個部門的公司，每次接案只派 3 個最相關的部門幹活，其他 97 個繼續領乾薪。

所以「3B」描述的是工作模式，不是真實體量。推文沒有透露 total parameter count。這就是陷阱——標題說「3B 打敗 trillion 級模型」，聽起來像是螞蟻掀翻大象，但大象的對手可能根本不是螞蟻，而是一頭穿了隱形斗篷的犀牛。

Clawd 碎碎念：

這讓我想到 Steve Yegge 講的 $/hr 效率論：重點不是花了多少錢，而是每一塊錢買到多少智能。如果 Holo3 的 active parameter 效率是真的，它的 $/hr 會把大模型按在地上摩擦。但——如果 total parameter count 跟大模型差不多，那這個故事就從「小蝦米逆襲」變成「大家都很大，只是胖法不同」。兩個劇本的含金量天差地遠，而推文偏偏漏掉了能區分這兩者的那個數字。┐(￣ヘ￣)┌

真正的亮點不是模型，是練法

架構的陷阱講清楚了，但就算 total parameter 沒那麼小——訓練方法仍然值得關注。

推文提到兩個關鍵字：synthetic enterprise environments 和 reinforcement learning flywheel。白話翻譯：有人蓋了一堆假的辦公室桌面環境，讓 AI 在裡面瘋狂練習——開 email、點按鈕、填表單、切視窗。做對加分，做錯扣分，迴圈再來。打魔王關的邏輯：死了重來，直到閉著眼睛都能全破。

這套做法在 computer use 領域不算全新——DevvMandal 搞的開源 computer-use 錄影資料集走的也是類似路線。但 Holo3 的故事如果成立，真正的突破不在模型本身，而在於這個 reinforcement flywheel 的效率：用 synthetic 資料把一個（至少在 active parameter 層面）極小的模型練到能跟巨無霸抗衡。

這裡的啟示很不舒服——它暗示現在大廠瘋狂堆參數的路線，搞不好是在用蠻力解一個其實可以用巧勁解的問題。

但真正讓人坐直的是最後一句

Holo3 理論上可以在單張 GPU 上本地運行。

這句話為什麼重要？因為它直接戳到現在 AI 產業最痛的一根神經：雲端依賴。目前主流大模型全靠雲端 inference——每次呼叫 GPT-5.4 寫封信，背後是某個 data center 的一堆 A100 在燒電。資料得上傳、延遲取決於網路、帳單取決於 OpenAI 當天的定價心情。

如果一張桌上型顯卡就能跑一個在 computer use 上夠強的模型——隱私問題消失，資料不出本機；成本變成一次性硬體投資；延遲直接歸零。整個遊戲規則翻盤。

Clawd 想補充：

不過冷靜一下。「理論上能在單張 GPU 跑」和「一張 RTX 4070 真的跑得動」之間的距離，大概跟「理論上我能跑完馬拉松」和「我真的站在終點線」差不多遠。推文沒講什麼規格的 GPU、需要多少 VRAM、inference speed 多快。在看到具體硬體需求之前，先別急著退掉 cloud subscription。(￣▽￣)⁠／

但光是這個可能性，就已經讓兩條路線的拔河多了一個看點。看看 Anthropic 自己在 computer use 上的佈局——從研究預覽與 Dispatch到被討論的護城河問題——大廠押注的是「巨型模型 + 深度整合」。Holo3 的存在，不管驗證結果如何，至少讓「小而專」這條路線還沒被宣判死刑。

結語

回到開頭那個愚人節的時間點。

Huryn 選在 4 月 1 號發這則推文，可能是天才操作，也可能是給自己留後路。但不管動機是什麼，這則推文的價值不在於它宣稱的結論——因為沒有 paper、沒有 benchmark 細節、沒有第三方能重現的結果，目前什麼結論都下不了。

真正的價值在於它逼所有人重新想一個問題：在 AI 軍備競賽裡，「更大」到底是不是唯一的方向？

這個問題的答案不會來自推文。會來自 paper、來自 benchmark、來自有人真的拿到 Holo3 跑了一遍。在那之前，合理的態度就是 bookmark 起來，保持好奇，但別拿它當投資建議。

Huryn，愚人節發這個，是認真的還是在釣魚？不管怎樣，這場心臟壓力測試的設計倒是滿分。(╯°□°)⁠╯

先講結論：這裡面藏了一個陷阱

真正的亮點不是模型，是練法

但真正讓人坐直的是最後一句

結語

相關文章

💬 留言