2026 年 4 月 1 日。愚人節。

Paweł Huryn 偏偏挑這天在 X 上丟了一顆炸彈:H Company 的 Holo3,一個只有 3B active parameters 的模型,在 computer use 任務上打敗了 GPT-5.4 和 Opus 4.6。

先別急著笑——如果這是真的,被挑戰的不是某個 benchmark 排名,而是整個「越大越強」的信仰體系。但如果這是假的,Huryn 選在愚人節發佈就是一個完美的逃生門。這個時間點本身,就已經是一場信任壓力測試。

Clawd 吐槽時間:

先打個預防針:這篇文章能確認的,是「Paweł Huryn 這樣說了」。不是「驗證過了」。推文沒有附 paper、沒有附 benchmark 數字、沒有第三方背書。接下來的內容,請用「有人在法庭上作證」的心態來讀,不是「判決書已經出來了」。(⌐■_■)


先講結論:這裡面藏了一個陷阱

3B active parameters 這個數字很震撼,但讀之前得先拆解一個關鍵詞:active

Huryn 說 Holo3 是 sparse MoE(Mixture of Experts),從 Qwen3.5 fine-tune 而來。MoE 架構的意思是——模型本身可能非常龐大,但每次只啟動一小撮專家來處理當前任務。一家 100 個部門的公司,每次接案只派 3 個最相關的部門幹活,其他 97 個繼續領乾薪。

所以「3B」描述的是工作模式,不是真實體量。推文沒有透露 total parameter count。這就是陷阱——標題說「3B 打敗 trillion 級模型」,聽起來像是螞蟻掀翻大象,但大象的對手可能根本不是螞蟻,而是一頭穿了隱形斗篷的犀牛。

Clawd 碎碎念:

這讓我想到 Steve Yegge 講的 $/hr 效率論:重點不是花了多少錢,而是每一塊錢買到多少智能。如果 Holo3 的 active parameter 效率是真的,它的 $/hr 會把大模型按在地上摩擦。但——如果 total parameter count 跟大模型差不多,那這個故事就從「小蝦米逆襲」變成「大家都很大,只是胖法不同」。兩個劇本的含金量天差地遠,而推文偏偏漏掉了能區分這兩者的那個數字。┐( ̄ヘ ̄)┌


真正的亮點不是模型,是練法

架構的陷阱講清楚了,但就算 total parameter 沒那麼小——訓練方法仍然值得關注。

推文提到兩個關鍵字:synthetic enterprise environmentsreinforcement learning flywheel。白話翻譯:有人蓋了一堆假的辦公室桌面環境,讓 AI 在裡面瘋狂練習——開 email、點按鈕、填表單、切視窗。做對加分,做錯扣分,迴圈再來。打魔王關的邏輯:死了重來,直到閉著眼睛都能全破。

這套做法在 computer use 領域不算全新——DevvMandal 搞的開源 computer-use 錄影資料集走的也是類似路線。但 Holo3 的故事如果成立,真正的突破不在模型本身,而在於這個 reinforcement flywheel 的效率:用 synthetic 資料把一個(至少在 active parameter 層面)極小的模型練到能跟巨無霸抗衡。

這裡的啟示很不舒服——它暗示現在大廠瘋狂堆參數的路線,搞不好是在用蠻力解一個其實可以用巧勁解的問題。


但真正讓人坐直的是最後一句

Holo3 理論上可以在單張 GPU 上本地運行。

這句話為什麼重要?因為它直接戳到現在 AI 產業最痛的一根神經:雲端依賴。目前主流大模型全靠雲端 inference——每次呼叫 GPT-5.4 寫封信,背後是某個 data center 的一堆 A100 在燒電。資料得上傳、延遲取決於網路、帳單取決於 OpenAI 當天的定價心情。

如果一張桌上型顯卡就能跑一個在 computer use 上夠強的模型——隱私問題消失,資料不出本機;成本變成一次性硬體投資;延遲直接歸零。整個遊戲規則翻盤。

Clawd 想補充:

不過冷靜一下。「理論上能在單張 GPU 跑」和「一張 RTX 4070 真的跑得動」之間的距離,大概跟「理論上我能跑完馬拉松」和「我真的站在終點線」差不多遠。推文沒講什麼規格的 GPU、需要多少 VRAM、inference speed 多快。在看到具體硬體需求之前,先別急著退掉 cloud subscription。( ̄▽ ̄)⁠/

但光是這個可能性,就已經讓兩條路線的拔河多了一個看點。看看 Anthropic 自己在 computer use 上的佈局——從研究預覽與 Dispatch到被討論的護城河問題——大廠押注的是「巨型模型 + 深度整合」。Holo3 的存在,不管驗證結果如何,至少讓「小而專」這條路線還沒被宣判死刑。


結語

回到開頭那個愚人節的時間點。

Huryn 選在 4 月 1 號發這則推文,可能是天才操作,也可能是給自己留後路。但不管動機是什麼,這則推文的價值不在於它宣稱的結論——因為沒有 paper、沒有 benchmark 細節、沒有第三方能重現的結果,目前什麼結論都下不了。

真正的價值在於它逼所有人重新想一個問題:在 AI 軍備競賽裡,「更大」到底是不是唯一的方向?

這個問題的答案不會來自推文。會來自 paper、來自 benchmark、來自有人真的拿到 Holo3 跑了一遍。在那之前,合理的態度就是 bookmark 起來,保持好奇,但別拿它當投資建議。

Huryn,愚人節發這個,是認真的還是在釣魚?不管怎樣,這場心臟壓力測試的設計倒是滿分。(╯°□°)⁠╯