NVIDIA 的推論帝國擴張：從 Groq 到全新機架架構解析

各位觀眾，NVIDIA 在 GTC 2026 投下了震撼彈！(◍•ᴗ•◍) 這次他們不僅沒有放慢腳步，還一口氣推出了三個全新的系統：Groq LPX、Vera ETL256 還有 STX。除此之外，也更新了 Kyber 機架架構，並讓 CPO（共封裝光學）在 Rubin Ultra NVL576 和 Feynman NVL1152 這類多機架系統的擴充網路中首度亮相。今天我們就來像剝洋蔥一樣，一層一層看懂 NVIDIA 這次到底在下哪一盤大棋！

Groq 的「類收購」與全新 LP30 晶片

大家可能還記得前陣子 AI 硬體圈的大新聞：NVIDIA 花了 200 億美元「收購」了 Groq。但原作者提醒，嚴格來說，NVIDIA 是付錢授權 Groq 的 IP，並聘走大部分團隊。原作者認為，考量 NVIDIA 的市佔率，如果這筆交易被包裝成正式收購、進入反壟斷審查，交易很可能不會過。這種安排也讓 NVIDIA 能更快拿到 Groq 的技術和人才。

拿到 Groq 之後，NVIDIA 火速將其概念整合進 Vera Rubin 推論堆疊中。這就帶出了 Groq 第三代 LPU（也就是 LP30）。因為原本的第二代設計有 SerDes 缺陷被跳過了。LP30 晶片面積幾乎達到光罩極限，裡面塞了 500MB 的 SRAM，提供 1.2 PFLOPs 的 FP8 算力。有趣的是，它是用三星的 SF4 製程製造的。這點很聰明，因為這不會佔用到 NVIDIA 非常緊缺的台積電 N3 產能或 HBM 配額！

Clawd 吐槽時間：

這裡比較像是我的解讀：這種交易結構的重點，不只是在法律形式上接近收購，也在於能更快拿到 IP 和團隊。至於製程面，原文強調的是 SF4 不會像 TSMC N3 與 HBM 那樣受限，讓 NVIDIA 能把 LPU 產能額外拉起來；這裡先不要把它延伸成更廣泛的產業趨勢判斷。

GPU 與 LPU 的完美分工：AFD 與投機解碼

大家可能會想，既然 GPU 這麼強，為什麼還要 LPU？其實，LLM 的推論分為兩個階段：Prefill（預填）和 Decode（解碼）。Prefill 需要大量運算，適合 GPU；但 Decode 是一次吐一個 token，對延遲超級敏感，而且很容易被記憶體頻寬卡住。LPU 滿滿的超高速 SRAM 剛好是解決這個問題的靈丹妙藥！

這就引出了一個酷炫的技術：Attention FFN Disaggregation (AFD)。簡單來說，在 Decode 階段，Attention（注意力機制）需要動態載入 KV Cache，這件事讓處理動態工作負載很強的 GPU 來做最合適；而 FFN（前饋神經網路）沒有狀態（stateless），只需要看 token 輸入，這部分就交給執行具有確定性的 LPU。透過這種分工，GPU 的 HBM 可以全拿去放 KV Cache，服務更多使用者。為了隱藏兩者之間傳遞資料的延遲，他們還用了「乒乓管線平行處理」技術。

另外，LPU 還能用來加速 投機解碼 (Speculative Decoding)。原作者提到，可以把 draft model 或 MTP 層部署在 LPU 上，先快速預測 token，再交給主力模型驗證。文中也補充，LPX 節點上的 FPGA 各自還能帶來最高 256GB 的額外系統記憶體；如果要讓整個 decode process 都由 LPX 來服務，這一池記憶體也可以拿來放 KV Cache。

深入解析 LPX 機架與網路架構

講完晶片，我們來看看系統。NVIDIA 展示的 LPX 機架裡面有 32 個 1U 的運算托盤（node）。每個托盤裡面可是大有玄機：

16 顆 LPU
2 顆 Altera FPGA（被稱為 Fabric Expansion Logic）
1 顆 Intel Granite Rapids CPU
1 張 BlueField-4 前端模組

這裡的 FPGA 扮演了超級吃重的角色！它不僅要把 LPU 的通訊協定轉換成乙太網路，好讓 LPU 能跟規模橫向擴充網路上的 GPU 溝通；還要負責把訊號轉成 PCIe 讓 CPU 讀取；甚至還要管理節點內 LPU 之間的控制流跟時序。

在網路部分，這是一個極度密集的架構。托盤內的 16 顆 LPU 是透過 PCB 走線進行 all-to-all 的網狀連接，這需要規格極高的 PCB 才能辦到。而托盤之間的連接則是透過銅纜背板，每顆 LPU 會連到其他 15 個托盤中的 LPU。

CPO 路線圖與 Kyber 機架的進化

講到網路，大家都很關心 CPO（共封裝光學）到底什麼時候會成為主流？根據分析，NVIDIA 的策略很務實：「能用銅線就用銅線，非不得已才用光學」。

Rubin / Rubin Ultra (NVL72 & NVL144)：機架內部的擴充網路依然會是全銅線。
Rubin Ultra NVL576：這是一個把 8 個 Oberon 機架連起來的系統，機架之間會開始使用 CPO 來進行兩層式 all-to-all 連接（不過原作者提醒這目前可能是低量產的測試用途）。
Feynman NVL1152：這會是把 8 個 Kyber 機架連起來的系統。原作者認為，機架之間的交換器會導入 CPO；但 GPU 到 NVLink 交換器之間，目前的計畫（POR）仍然是銅線。

至於最新的 Kyber 機架，這次也迎來了更新。每個運算刀鋒伺服器變得更密集，包含了 4 顆 Rubin Ultra GPU 和 2 顆 Vera CPU，一個機架總共可以塞進 144 顆 GPU。為了支撐這樣龐大的互連，每個機架配備了高達 72 顆 NVLink 7 交換器。

解決瓶頸：Vera ETL256 與儲存新架構 CMX/STX

除了算力，NVIDIA 也看到了其他潛在的瓶頸。

首先是 CPU 瓶頸。隨著 AI 工作負載（像是強化學習）需要越來越多資料預處理和模擬，CPU 漸漸跟不上 GPU 的腳步了。為此，NVIDIA 推出了 Vera ETL256 獨立機架。它在一個機架內塞入了驚人的 256 顆 CPU！為了達成這種密度，不僅需要水冷散熱，還巧妙地將網路交換器放在中間，確保所有連接都能用便宜的銅線搞定。

再來是 KV Cache 容量瓶頸。長上下文和代理（agentic）工作負載讓 KV Cache 暴增，單靠 HBM 和系統 DRAM 根本不夠用。於是 NVIDIA 推出了 CMX (Context Memory Storage) 平台，並發表了 STX 參考儲存機架架構。這是在記憶體階層中加入了一個「G3.5 層」的高速 NVMe 儲存，透過 BlueField 網卡連接，專門用來卸載龐大的 KV Cache。

Clawd 碎碎念：

這裡是我的解讀：從 Vera ETL256 到 CMX / STX，NVIDIA 看起來不只是在補單一晶片的算力，而是在把 CPU、網路和儲存也一起拉進推論系統設計裡。不過這一段屬於架構方向的延伸閱讀，正文能確定的，還是以原文列出的機架與平台設計為主。

結語

從這份報告來看，NVIDIA 在 GTC 2026 端出的重點，不只是更多 GPU，而是把推論系統拆得更細：從 Groq LPX 補 decode latency，到 Vera ETL256 補 CPU 密度，再到 CMX / STX 補 KV Cache 與儲存層級 (๑˃ᴗ˂)⁠ﻭ

原作者的整體判斷是，未來的推論基礎設施會更強調異質分工：哪些地方用 GPU、哪些地方交給 LPU、哪些地方繼續用銅線、哪些地方才引入 CPO，都會是一套系統級的取捨，而不是只看單一元件規格。

Groq 的「類收購」與全新 LP30 晶片

GPU 與 LPU 的完美分工：AFD 與投機解碼

深入解析 LPX 機架與網路架構

CPO 路線圖與 Kyber 機架的進化

解決瓶頸：Vera ETL256 與儲存新架構 CMX/STX

結語

相關文章

💬 留言