benchmark
9 篇文章
Artificial Analysis 推出 AA-AgentPerf:AI 硬體 benchmark 終於進入 agent 時代
Artificial Analysis 發布 AA-AgentPerf,一個專門衡量 AI 加速器硬體在真實 agent 工作負載下表現的 benchmark。用真實 coding agent 軌跡測試,允許 production 級優化,支援從單張卡到整個 rack 的評測。
ATLAS:一張 RTX 5060 Ti + Qwen3-14B 在 LiveCodeBench 跑贏 Sonnet 4.5?拆解 harness 的真正魔法
ATLAS 用 frozen Qwen3-14B 搭配單張 RTX 5060 Ti,透過 PlanSearch + best-of-3 生成 + 自我修復 pipeline,在 LiveCodeBench 拿到 74.6%,超越 Sonnet 4.5 的 71.4%。但細看方法論,這不是 pass@1 對 pass@1 的公平比較。
Dan McAteer 直球評比:Opus 4.6 在百萬 token context 幾乎沒有對手
Dan McAteer 直接給出他的長 context 觀察:Opus 4.6 在 1 million token 測試裡表現最好,1 mil tokens 時有 78% accuracy,最接近的是 Sonnet 4.6。另一個重點是,他認為 GPT-5.4 在 long context 上相較 GPT-5.2 反而退步了。
Grok 4.20 Beta:幻覺率全場最低,但智力還在追趕中
xAI 釋出 Grok 4.20 Beta API 版本。Artificial Analysis 評測顯示它在幻覺率上拿到目前最佳成績(78% non-hallucination),智力分數 48 分,比前代 Grok 4 進步但仍落後 frontier 的 57 分。定價比前代便宜,推理速度也在前沿水準。
Epoch AI 重跑 SWE-bench Verified:分數大漲不一定是模型變強,可能是評測環境變對
Epoch AI 更新 SWE-bench Verified 評測流程(v2.x)後,多數模型分數明顯更接近模型開發商自報成績。關鍵改動不是換模型,而是升級工具鏈、修復不穩定任務、調整 scaffold 與環境設定。這提醒工程團隊:benchmark 不只是看模型,還要看評測管線是否可重現。
Google 發布 Gemini 3.1 Pro:ARC-AGI-2 77.1%,把『高難推理』推進日常開發流程
Google 發布 Gemini 3.1 Pro(preview),主打更強核心推理能力,並宣稱在 ARC-AGI-2 取得 77.1% 驗證分數。3.1 Pro 同步進入 API、Vertex AI、Gemini App 與 NotebookLM。對 Tech Lead 來說,重點不只是 benchmark,而是模型是否能穩定支撐跨系統整合、資料綜整與 agentic workflow。
手機就能跑推理模型?Liquid AI 把 LFM2.5-1.2B 壓進 900MB,邊緣 Agent 時代真的來了
Liquid AI 發布 LFM2.5-1.2B-Thinking:1.17B 參數、32K context,可在手機/NPU 裝置以不到 1GB 記憶體執行。官方數據顯示它在多數推理 benchmark 可匹敵或超越 Qwen3-1.7B,且速度更快、輸出 token 更少。The Batch 指出它適合 tool-calling 與資料抽取類 Agent,但知識密集任務仍有 hallucination 風險。
SWE-bench 二月大考成績出爐 — Opus 4.5 逆襲 4.6、中國模型佔領半壁江山、GPT-5.3 缺考
SWE-bench 官方用同一個 mini-SWE-agent 跑完所有主流模型的 Bash Only 排行榜(Verified 子集,500 題)。結果讓人意外:Claude Opus 4.5(舊版)以 76.8% 險勝 Opus 4.6 的 75.6% 拿下第一、Gemini 3 Flash 和 MiniMax M2.5 並列第二。去除同模型重複後,前十名中有四個中國模型。OpenAI 最強戰力 GPT-5.3-Codex 因為 API 沒開放而缺席。Simon Willison 順手用 Claude for Chrome 幫圖表加上了百分比標籤——這可能是全文最實用的部分。
Kimi K2.5 用 RL 訓練 Agent 指揮官 — SemiAnalysis 實測:Claude 的 Agent Teams 反而更慢更貴
SemiAnalysis 深度拆解 Kimi K2.5 的 agent swarm 架構:不靠 prompt 魔法,直接用 RL 訓練一個「指揮官」來決定何時開分支、何時平行化。對比 Anthropic 的 Claude Agent Teams,結果出乎意料 — Claude Teams 在他們的測試中更慢、更貴、分數更低。這篇揭示了 multi-agent 從「prompt 工程」走向「分散式排程問題」的轉變。