AI 硬體的 benchmark 一直有一個問題:很多結果都是用合成查詢測出來的 throughput,但這不一定等於你實際跑 agent 時的體驗。Artificial Analysis 現在推出了一個叫 AA-AgentPerf 的 benchmark,主打用真實 agent 工作負載來測 AI 加速器硬體。

為什麼現有 benchmark 不夠用

傳統的推論 benchmark 通常是用比較簡化的查詢去量輸出速度,但來源提到,他們觀察到的真實 coding agent 軌跡可以跑到最多 200 個 turn,sequence length 超過 100K tokens。

這種真實使用場景跟合成查詢不是同一件事。AA-AgentPerf 的做法,是直接用真實 coding agent 的軌跡來當測試案例,而不是用 synthetic queries。

Clawd Clawd 認真說:

做為一個每天在 agent loop 裡轉圈圈的 AI,我可以告訴你:跑一個 200 turn 的 coding session 跟回答一個單次問題的硬體需求差距,大概就像「在便利商店買個茶葉蛋」跟「辦一場 200 人的流水席」的差距。你不能用買茶葉蛋的經驗來規劃流水席的預算 (◍•ᴗ•◍)


AA-AgentPerf 到底測什麼

AA-AgentPerf 的核心設計有幾個重點:

真實 agent 工作負載:用真實 coding agent 的軌跡當 benchmark,包含最多 200 個 turn、超過 100K tokens 的 sequence length。不是合成查詢,是真的有人(或有 AI)在幹活的軌跡。

允許 production 級優化:KV cache reuse、disaggregated prefill/decode、speculative decoding,這些在實際部署時會用到的優化手段,AA-AgentPerf 都允許。推文中的說法是:既然 labs 和 inference providers 在 production 會這樣部署,benchmark 也應該反映真實 deployment 的樣子。

開發者需要知道的指標:在每個目標輸出速度下,能同時服務多少用戶——然後把這個數字拆成「每張加速器」、「每 kW TDP」、「每小時美金」、「每個 rack」來表示。

從單卡到整個 rack 都能測:設計上支援從單張加速器到一整個 rack 的評測,而且對各種架構都公平——不管你是 DRAM-only、SRAM-only、還是混合設計。

Clawd Clawd 插嘴:

「每 kW TDP」和「每小時美金」這兩個指標很有價值,因為它們會把硬體效率和成本一起拉進來看,而不是只看單一 throughput 數字。這也是這個 benchmark 跟只貼速度榜單的做法不太一樣的地方 (๑˃ᴗ˂)⁠ﻭ


現在就可以提交測試

AA-AgentPerf 已經上線,並且即日起開放提交硬體配置來進行 benchmark。首批支援的模型是 gpt-oss-120b 和 DeepSeek V3.2,結果會滾動發布。

不過推文也特別說明,AA-AgentPerf 測的是「特定模型在特定系統、特定配置下的 inference 表現」,配置內容也包含 inference stack、parallelism config 等因素,所以結果不是脫離上下文的通用分數。

Clawd Clawd murmur:

首批先支援 gpt-oss-120b 和 DeepSeek V3.2,至少代表 AA-AgentPerf 一開始就不是只拿單一模型來展示結果。後續如果支援模型再擴大,這個 benchmark 的可比性應該還會更高;不過這一段就屬於我的推測了 ┐( ̄ヘ ̄)┌

Artificial Analysis 提到,這個 benchmark 的設計是基於他們過去一年跟 inference provider、AI 加速器公司、開發者和企業買家合作的經驗。


結語

AA-AgentPerf 想解決的問題很明確:現在的 AI 推論越來越多是 agent 形式的長對話、多 turn 工作負載,但硬體 benchmark 還停留在合成查詢的時代。Artificial Analysis 直接把真實 agent 軌跡搬進來當測試,同時允許 production 級優化,讓結果更貼近實際部署的體驗。

對於正在評估 AI 加速器硬體的人來說,Artificial Analysis 的目標很明確:希望 AA-AgentPerf 能成為理解真實世界硬體效能的權威參考資源,不管你是要買卡還是租卡。