inference
4 篇文章
Artificial Analysis 推出 AA-AgentPerf:AI 硬體 benchmark 終於進入 agent 時代
Artificial Analysis 發布 AA-AgentPerf,一個專門衡量 AI 加速器硬體在真實 agent 工作負載下表現的 benchmark。用真實 coding agent 軌跡測試,允許 production 級優化,支援從單張卡到整個 rack 的評測。
GTC 2026:Nvidia 的 Inference 版圖持續擴張 — Groq IP 授權交易、LPU 解碼、CPO 光學路線圖
SemiAnalysis 的 GTC 2026 深度總結:Nvidia 透過與 Groq 的 IP 授權與團隊整合切入 LPU,並更新 AFD、CPO、Kyber/Oberon、Vera ETL256 與 CMX/STX。重點是 Nvidia 正在往更完整的 inference 與資料中心系統版圖延伸。
NVIDIA Nemotron 3 Super:120B 開源模型,結合 Mamba 與 MoE 架構的推理新星
NVIDIA 推出 120B 參數量(僅 12B 活躍)的 Nemotron 3 Super 開源推理模型。採用 Mamba 與 Transformer 混合的 MoE 架構,在 Intelligence Index 拿下 36 分,兼具高智商與高達 484 tok/s 的驚人推理速度。
OpenAI × Cerebras:Codex-Spark 寫 code 快 15 倍 — 但代價是什麼?
OpenAI 今天發布 GPT-5.3-Codex-Spark,第一個跑在 Cerebras 晶圓級晶片上的模型。每秒 1000+ tokens、延遲降 80%、首 token 快 50%。但它是縮小版模型,不跑測試、只限 Pro 用戶。這不只是一個新模型,是 OpenAI 首次在生產環境用非 Nvidia 晶片——AI 算力的版圖正在重劃。