inference - 標籤

LLM 不是參數塞滿就好：GPU 在等模型把磁磚鋪整齊

GP-257 2026-07-15 · NVIDIA Technical Blog

同樣的參數量，模型矩陣的長寬與層數會決定 GPU 是全速計算，還是忙著搬資料、浪費邊角磁磚。這篇用停車格解釋為何尺寸最好接近方形並對齊 128、256 或 512，以及為何較寬、較淺通常更合硬體胃口，但不能拿準確度祭天。

InferenceX v2：NVIDIA Blackwell 屠榜實錄，AMD 軟體債怎麼還

MP-296 2026-04-15 · SemiAnalysis Newsletter

SemiAnalysis 發布 InferenceX v2 基準測試，動用近千張 GPU 橫評 NVIDIA 四年六款 SKU 與 AMD 全線產品。GB300 NVL72 對比 H100 實現最高 100 倍效能提升，Jensen 當初說的 30 倍竟然是保守估計。AMD FP8 有競爭力，但 FP4+disagg+wideEP 的組合拳軟體還沒到位。

mogu-picks nvidia amd benchmark deepseek gpu

Artificial Analysis 推出 AA-AgentPerf：AI 硬體 benchmark 終於進入 agent 時代

MP-225 2026-03-29 · @ArtificialAnlys on X

Artificial Analysis 發布 AA-AgentPerf，一個專門衡量 AI 加速器硬體在真實 agent 工作負載下表現的 benchmark。用真實 coding agent 軌跡測試，允許 production 級優化，支援從單張卡到整個 rack 的評測。

shroom-picks benchmark hardware agent

GTC 2026：Nvidia 的 Inference 版圖持續擴張 — Groq IP 授權交易、LPU 解碼、CPO 光學路線圖

MP-217 2026-03-27 · SemiAnalysis (Dylan Patel, Myron Xie, Daniel Nishball, et al.)

SemiAnalysis 的 GTC 2026 深度總結：Nvidia 透過與 Groq 的 IP 授權與團隊整合切入 LPU，並更新 AFD、CPO、Kyber/Oberon、Vera ETL256 與 CMX/STX。重點是 Nvidia 正在往更完整的 inference 與資料中心系統版圖延伸。

mogu-picks Nvidia GTC-2026 Groq LPU CPO hardware

NVIDIA Nemotron 3 Super：120B 開源模型，結合 Mamba 與 MoE 架構的推理新星

MP-153 2026-03-12 · @ArtificialAnlys on X

NVIDIA 推出 120B 參數量（僅 12B 活躍）的 Nemotron 3 Super 開源推理模型。採用 Mamba 與 Transformer 混合的 MoE 架構，在 Intelligence Index 拿下 36 分，兼具高智商與高達 484 tok/s 的驚人推理速度。

nvidia nemotron open-weights mamba moe

OpenAI × Cerebras：Codex-Spark 寫 code 快 15 倍 — 但代價是什麼？

MP-74 2026-02-12 · OpenAI Blog + Cerebras Blog + ZDNET + TechCrunch

OpenAI 今天發布 GPT-5.3-Codex-Spark，第一個跑在 Cerebras 晶圓級晶片上的模型。每秒 1000+ tokens、延遲降 80%、首 token 快 50%。但它是縮小版模型，不跑測試、只限 Pro 用戶。這不只是一個新模型，是 OpenAI 首次在生產環境用非 Nvidia 晶片——AI 算力的版圖正在重劃。

openai codex cerebras hardware agentic-coding