NVIDIA Nemotron 3 Super：120B 開源模型，結合 Mamba 與 MoE 架構的推理新星

想像你開了一間超大型顧問公司，養了 120 個不同領域的專家。薪水帳單嚇死人，但每次客戶來問問題的時候，你其實只叫其中 12 個人出來開會。

聽起來很浪費對吧？但如果我跟你說，這 12 個人因為背後有 120 人的知識庫撐腰，回答品質海放那些只請得起 12 個人的小公司呢？

這就是 NVIDIA 剛端出來的 Nemotron 3 Super 在做的事——一個 120B 參數的開源推理模型，但每次推論只動用 12.7B 的活躍參數。

MoE：請 120 個專家，只付 12 個人的薪水

好，先講最核心的概念。120B 參數量聽起來很嚇人，「這是要幾張 H100 才跑得動」那種嚇人。但 Nemotron 3 Super 用了 MoE（Mixture of Experts，混合專家）架構，所以實際上每次推論只有 12.7B 的參數在工作。

回到剛剛的比喻。你的顧問公司養了 120 個人，但有一個超強的人資主管（router），每次客戶丟問題進來，她瞬間判斷「這題找 Dave、Linda、跟那個很會寫 SQL 的阿明就好」，其他人繼續喝咖啡。

結果就是：你的公司擁有 120 人等級的知識廣度，但每張帳單只收 12 人的工時費。

Clawd 內心戲：

MoE 的精髓就是：養兵千日，用兵一時。120B 的參數裡面塞滿了各種領域的知識，但每次推論只挑最相關的一小撮出來幹活。所以你看到的推理速度和成本都是 12B 級別的，但回答品質是 120B 撐出來的。這種「看起來很奢侈但其實超省」的設計，根本就是 AI 界的 Costco 商業模式 (⌐■_■)

Mamba + Transformer：兩種引擎塞進同一台車

好了，MoE 解決了「怎麼養 120 個專家但不破產」的問題。但 Nemotron 3 Super 還有第二個大招：它不只用 Transformer，還混進了 Mamba 架構。

先講一個 Transformer 的老毛病。大家都知道 Transformer 是現在 LLM 的標配，但它有一個讓工程師們集體翻白眼的特性：context 越長，運算量越爆。你餵它一篇短文，它跑得飛快。你餵它一本小說？抱歉，顯卡開始冒煙。

Mamba 是另一種架構思路。它處理長文本的效率遠高於 Transformer，代價是在某些需要「每個字都跟每個字互相看一眼」的精細推理任務上，表現可能不如 Transformer 那麼犀利。

所以 NVIDIA 的工程師想了一個很合理的策略：兩個都用。

Clawd 真心話：

這個策略的精神就像吃到飽餐廳裡的聰明客人——需要大量處理日常食物（長文本）的時候用 Mamba 這個高效率的胃，遇到需要細細品味的精緻料理（複雜推理）時切換成 Transformer 的味覺系統。一個人有兩個胃？不，一個模型有兩種 attention mechanism，而且居然真的 work。之前 CP-147 聊到「每瓦智力」的概念，Mamba 混合架構基本上就是在同一個功耗預算裡硬塞進更多智商 ┐(￣ヘ￣)┌

結果是什麼？Nemotron 3 Super 可以吃下高達 100 萬 token 的超長 context window，還同時支援 multi-token prediction 和混合推理。這對於需要處理整份法律文件、整個 codebase 的場景來說，根本是量身打造的。

跑分：贏了 GPT-oss，但被 Qwen3.5 壓在地上

數字時間。在 Artificial Analysis Intelligence Index 上，Nemotron 3 Super 拿了 36 分。

這 36 分什麼概念？比前一代大幅進步 17 分，也贏過了 gpt-oss-120b 的 33 分。但是——在這個量級的頭號選手 Qwen3.5 122B A10B 拿了 42 分，整整高出 6 分。

所以 Nemotron 3 Super 是不是不行？

才不是。

因為它的真正殺手鐧不是「最聰明」，而是「聰明到夠用，然後便宜到嚇死你」。原作者特別提到，它比 gpt-oss-120b 聰明，而且每張 GPU 的吞吐量還高出約 10%。

Clawd 忍不住說：

Qwen3.5 是這個量級的考試第一名，Nemotron 3 Super 是那個考試第三名但實習薪資只要第一名的十分之一的人。你是老闆你選誰？CP-89 那篇 Epoch AI 的分析講得很透徹——inference 成本才是大規模部署的真正瓶頸。在那個框架下，Nemotron 的定位簡直是精準打擊：不跟你比誰考試最高分，專門打「性價比」這個真實世界最痛的痛點 (￣▽￣)⁠／

484 tok/s：快到你眼睛跟不上

然後是速度。

一發布，DeepInfra 和 LightningAI 這些 serverless 推理服務就立刻上線支援。實測速度：每秒 484 tokens。

484 tok/s 是什麼體感？大約就是你眼睛剛開始讀第一行，它已經把整段回覆都吐完了。搭配 NVIDIA 自家的 NVFP4 量化權重，這完全是為了低延遲、大規模部署而設計的組合拳。

Clawd 碎碎念：

老實說，484 tok/s 到了這個級別，瓶頸已經不是模型了——是你的網路延遲、你的前端 render、甚至你的眼球轉速。這讓我想到一個有點荒謬的事實：我們花了幾十年讓 AI 學會「像人一樣思考」，結果現在得反過來煩惱人類跟不上 AI 的輸出速度。就好像你僱了一個打字速度是你閱讀速度 40 倍的秘書，他打完報告你還在看第一頁ヽ(°〇°)ﾉ

開源的誠意：不只給權重，連食譜都給你

最後一個值得聊的重點是開源策略。

現在很多大廠的「開源」是這樣的：丟一個模型權重給你，其他什麼都不說。你可以用，但你不知道它怎麼練出來的，不知道用了什麼資料，不知道為什麼某些能力特別強。這種開源就像餐廳讓你吃菜但不給食譜——你只能當消費者，沒辦法當廚師。

NVIDIA 這次不一樣。除了模型權重跟極度寬鬆的授權（permissive license），他們連訓練資料和方法學都一併公開了。

延伸閱讀

Clawd 插嘴：

在各家大廠把訓練細節藏得跟可口可樂配方一樣嚴密的年代，NVIDIA 居然直接把食譜攤在桌上。CP-69 聊智譜 GLM5 開源的時候我就說過，「open weight」跟「真正的 open source」差距大到像是同一個字但完全不同的物種。NVIDIA 這次交出來的功課，是少數讓我覺得「好吧，你們說 open source 我信了」的案例 (ง •̀_•́)ง

還記得開頭那間 120 人的顧問公司嗎？NVIDIA 不只開了這間公司，還把組織架構圖、招聘流程、培訓教材全部攤開來讓你抄。

Nemotron 3 Super 不是在跟 Qwen3.5 搶跑分第一名。它在示範一件更有意思的事：當你把 MoE、Mamba、Transformer 這三種技術塞進同一個模型——你拿到的不是一個什麼都最強的怪物，而是一個什麼都「剛好夠用」然後成本低到讓競爭對手想哭的東西。

這年頭，跑分榜第一名的位子每三個月就換人坐。但能讓企業真的掏錢大規模部署的模型？那張名單短得多 (๑•̀ㅂ•́)و✧