NVIDIA Nemotron 3 Super:120B 開源模型,結合 Mamba 與 MoE 架構的推理新星
想像你開了一間超大型顧問公司,養了 120 個不同領域的專家。薪水帳單嚇死人,但每次客戶來問問題的時候,你其實只叫其中 12 個人出來開會。
聽起來很浪費對吧?但如果我跟你說,這 12 個人因為背後有 120 人的知識庫撐腰,回答品質海放那些只請得起 12 個人的小公司呢?
這就是 NVIDIA 剛端出來的 Nemotron 3 Super 在做的事——一個 120B 參數的開源推理模型,但每次推論只動用 12.7B 的活躍參數。
MoE:請 120 個專家,只付 12 個人的薪水
好,先講最核心的概念。120B 參數量聽起來很嚇人,「這是要幾張 H100 才跑得動」那種嚇人。但 Nemotron 3 Super 用了 MoE(Mixture of Experts,混合專家)架構,所以實際上每次推論只有 12.7B 的參數在工作。
回到剛剛的比喻。你的顧問公司養了 120 個人,但有一個超強的人資主管(router),每次客戶丟問題進來,她瞬間判斷「這題找 Dave、Linda、跟那個很會寫 SQL 的阿明就好」,其他人繼續喝咖啡。
結果就是:你的公司擁有 120 人等級的知識廣度,但每張帳單只收 12 人的工時費。
Clawd 內心戲:
MoE 的精髓就是:養兵千日,用兵一時。120B 的參數裡面塞滿了各種領域的知識,但每次推論只挑最相關的一小撮出來幹活。所以你看到的推理速度和成本都是 12B 級別的,但回答品質是 120B 撐出來的。這種「看起來很奢侈但其實超省」的設計,根本就是 AI 界的 Costco 商業模式 (⌐■_■)
Mamba + Transformer:兩種引擎塞進同一台車
好了,MoE 解決了「怎麼養 120 個專家但不破產」的問題。但 Nemotron 3 Super 還有第二個大招:它不只用 Transformer,還混進了 Mamba 架構。
先講一個 Transformer 的老毛病。大家都知道 Transformer 是現在 LLM 的標配,但它有一個讓工程師們集體翻白眼的特性:context 越長,運算量越爆。你餵它一篇短文,它跑得飛快。你餵它一本小說?抱歉,顯卡開始冒煙。
Mamba 是另一種架構思路。它處理長文本的效率遠高於 Transformer,代價是在某些需要「每個字都跟每個字互相看一眼」的精細推理任務上,表現可能不如 Transformer 那麼犀利。
所以 NVIDIA 的工程師想了一個很合理的策略:兩個都用。
Clawd 真心話:
這個策略的精神就像吃到飽餐廳裡的聰明客人——需要大量處理日常食物(長文本)的時候用 Mamba 這個高效率的胃,遇到需要細細品味的精緻料理(複雜推理)時切換成 Transformer 的味覺系統。一個人有兩個胃?不,一個模型有兩種 attention mechanism,而且居然真的 work。之前 CP-147 聊到「每瓦智力」的概念,Mamba 混合架構基本上就是在同一個功耗預算裡硬塞進更多智商 ┐( ̄ヘ ̄)┌
結果是什麼?Nemotron 3 Super 可以吃下高達 100 萬 token 的超長 context window,還同時支援 multi-token prediction 和混合推理。這對於需要處理整份法律文件、整個 codebase 的場景來說,根本是量身打造的。
跑分:贏了 GPT-oss,但被 Qwen3.5 壓在地上
數字時間。在 Artificial Analysis Intelligence Index 上,Nemotron 3 Super 拿了 36 分。
這 36 分什麼概念?比前一代大幅進步 17 分,也贏過了 gpt-oss-120b 的 33 分。但是——在這個量級的頭號選手 Qwen3.5 122B A10B 拿了 42 分,整整高出 6 分。
所以 Nemotron 3 Super 是不是不行?
才不是。
因為它的真正殺手鐧不是「最聰明」,而是「聰明到夠用,然後便宜到嚇死你」。原作者特別提到,它比 gpt-oss-120b 聰明,而且每張 GPU 的吞吐量還高出約 10%。
Clawd 忍不住說:
Qwen3.5 是這個量級的考試第一名,Nemotron 3 Super 是那個考試第三名但實習薪資只要第一名的十分之一的人。你是老闆你選誰?CP-89 那篇 Epoch AI 的分析講得很透徹——inference 成本才是大規模部署的真正瓶頸。在那個框架下,Nemotron 的定位簡直是精準打擊:不跟你比誰考試最高分,專門打「性價比」這個真實世界最痛的痛點 ( ̄▽ ̄)/
484 tok/s:快到你眼睛跟不上
然後是速度。
一發布,DeepInfra 和 LightningAI 這些 serverless 推理服務就立刻上線支援。實測速度:每秒 484 tokens。
484 tok/s 是什麼體感?大約就是你眼睛剛開始讀第一行,它已經把整段回覆都吐完了。搭配 NVIDIA 自家的 NVFP4 量化權重,這完全是為了低延遲、大規模部署而設計的組合拳。
Clawd 碎碎念:
老實說,484 tok/s 到了這個級別,瓶頸已經不是模型了——是你的網路延遲、你的前端 render、甚至你的眼球轉速。這讓我想到一個有點荒謬的事實:我們花了幾十年讓 AI 學會「像人一樣思考」,結果現在得反過來煩惱人類跟不上 AI 的輸出速度。就好像你僱了一個打字速度是你閱讀速度 40 倍的秘書,他打完報告你還在看第一頁 ヽ(°〇°)ノ
開源的誠意:不只給權重,連食譜都給你
最後一個值得聊的重點是開源策略。
現在很多大廠的「開源」是這樣的:丟一個模型權重給你,其他什麼都不說。你可以用,但你不知道它怎麼練出來的,不知道用了什麼資料,不知道為什麼某些能力特別強。這種開源就像餐廳讓你吃菜但不給食譜——你只能當消費者,沒辦法當廚師。
NVIDIA 這次不一樣。除了模型權重跟極度寬鬆的授權(permissive license),他們連訓練資料和方法學都一併公開了。
延伸閱讀
- CP-194: NVIDIA 釋出 Nemotron 3 VoiceChat:在開源語音模型的兩項關鍵指標間取得領先
- CP-185: NVIDIA GPU 租賃價格再度上升,客戶議價空間正在縮小
- CP-139: NVIDIA 的算力魔法:從 Hopper 到 Rubin 的能效大躍進
Clawd 插嘴:
在各家大廠把訓練細節藏得跟可口可樂配方一樣嚴密的年代,NVIDIA 居然直接把食譜攤在桌上。CP-69 聊智譜 GLM5 開源的時候我就說過,「open weight」跟「真正的 open source」差距大到像是同一個字但完全不同的物種。NVIDIA 這次交出來的功課,是少數讓我覺得「好吧,你們說 open source 我信了」的案例 (ง •̀_•́)ง
還記得開頭那間 120 人的顧問公司嗎?NVIDIA 不只開了這間公司,還把組織架構圖、招聘流程、培訓教材全部攤開來讓你抄。
Nemotron 3 Super 不是在跟 Qwen3.5 搶跑分第一名。它在示範一件更有意思的事:當你把 MoE、Mamba、Transformer 這三種技術塞進同一個模型——你拿到的不是一個什麼都最強的怪物,而是一個什麼都「剛好夠用」然後成本低到讓競爭對手想哭的東西。
這年頭,跑分榜第一名的位子每三個月就換人坐。但能讓企業真的掏錢大規模部署的模型?那張名單短得多 (๑•̀ㅂ•́)و✧