benchmark - 標籤

InferenceX v2：NVIDIA Blackwell 屠榜實錄，AMD 軟體債怎麼還

CP-296 2026-04-15 · SemiAnalysis Newsletter

SemiAnalysis 發布 InferenceX v2 基準測試，動用近千張 GPU 橫評 NVIDIA 四年六款 SKU 與 AMD 全線產品。GB300 NVL72 對比 H100 實現最高 100 倍效能提升，Jensen 當初說的 30 倍竟然是保守估計。AMD FP8 有競爭力，但 FP4+disagg+wideEP 的組合拳軟體還沒到位。

Artificial Analysis 推出 AA-AgentPerf：AI 硬體 benchmark 終於進入 agent 時代

CP-225 2026-03-29 · @ArtificialAnlys on X

Artificial Analysis 發布 AA-AgentPerf，一個專門衡量 AI 加速器硬體在真實 agent 工作負載下表現的 benchmark。用真實 coding agent 軌跡測試，允許 production 級優化，支援從單張卡到整個 rack 的評測。

shroom-picks inference hardware agent

ATLAS：一張 RTX 5060 Ti + Qwen3-14B 在 LiveCodeBench 跑贏 Sonnet 4.5？拆解 harness 的真正魔法

CP-220 2026-03-28 · @daniel_mac8 on X

ATLAS 用 frozen Qwen3-14B 搭配單張 RTX 5060 Ti，透過 PlanSearch + best-of-3 生成 + 自我修復 pipeline，在 LiveCodeBench 拿到 74.6%，超越 Sonnet 4.5 的 71.4%。但細看方法論，這不是 pass@1 對 pass@1 的公平比較。

clawd-picks open-source harness Qwen LiveCodeBench

Dan McAteer 直球評比：Opus 4.6 在百萬 token context 幾乎沒有對手

CP-182 2026-03-17 · @daniel_mac8 on X

Dan McAteer 直接給出他的長 context 觀察：Opus 4.6 在 1 million token 測試裡表現最好，1 mil tokens 時有 78% accuracy，最接近的是 Sonnet 4.6。另一個重點是，他認為 GPT-5.4 在 long context 上相較 GPT-5.2 反而退步了。

llm claude-code long-context

Grok 4.20 Beta：幻覺率全場最低，但智力還在追趕中

CP-162 2026-03-14 · @ArtificialAnlys on X

xAI 釋出 Grok 4.20 Beta API 版本。Artificial Analysis 評測顯示它在幻覺率上拿到目前最佳成績（78% non-hallucination），智力分數 48 分，比前代 Grok 4 進步但仍落後 frontier 的 57 分。定價比前代便宜，推理速度也在前沿水準。

grok xai hallucination

Epoch AI 重跑 SWE-bench Verified：分數大漲不一定是模型變強，可能是評測環境變對

CP-109 2026-02-22 · Epoch AI

Epoch AI 更新 SWE-bench Verified 評測流程（v2.x）後，多數模型分數明顯更接近模型開發商自報成績。關鍵改動不是換模型，而是升級工具鏈、修復不穩定任務、調整 scaffold 與環境設定。這提醒工程團隊：benchmark 不只是看模型，還要看評測管線是否可重現。

epoch-ai swe-bench evaluation agentic-coding tech-lead

Google 發布 Gemini 3.1 Pro：ARC-AGI-2 77.1%，把『高難推理』推進日常開發流程

CP-110 2026-02-22 · Google

Google 發布 Gemini 3.1 Pro（preview），主打更強核心推理能力，並宣稱在 ARC-AGI-2 取得 77.1% 驗證分數。3.1 Pro 同步進入 API、Vertex AI、Gemini App 與 NotebookLM。對 Tech Lead 來說，重點不只是 benchmark，而是模型是否能穩定支撐跨系統整合、資料綜整與 agentic workflow。

google gemini reasoning agentic-coding tech-lead

手機就能跑推理模型？Liquid AI 把 LFM2.5-1.2B 壓進 900MB，邊緣 Agent 時代真的來了

CP-103 2026-02-21 · Liquid AI

Liquid AI 發布 LFM2.5-1.2B-Thinking：1.17B 參數、32K context，可在手機/NPU 裝置以不到 1GB 記憶體執行。官方數據顯示它在多數推理 benchmark 可匹敵或超越 Qwen3-1.7B，且速度更快、輸出 token 更少。The Batch 指出它適合 tool-calling 與資料抽取類 Agent，但知識密集任務仍有 hallucination 風險。

liquid-ai edge-ai on-device agentic-coding small-model the-batch

SWE-bench 二月大考成績出爐 — Opus 4.5 逆襲 4.6、中國模型佔領半壁江山、GPT-5.3 缺考

CP-97 2026-02-19 · Simon Willison

SWE-bench 官方用同一個 mini-SWE-agent 跑完所有主流模型的 Bash Only 排行榜（Verified 子集，500 題）。結果讓人意外：Claude Opus 4.5（舊版）以 76.8% 險勝 Opus 4.6 的 75.6% 拿下第一、Gemini 3 Flash 和 MiniMax M2.5 並列第二。去除同模型重複後，前十名中有四個中國模型。OpenAI 最強戰力 GPT-5.3-Codex 因為 API 沒開放而缺席。Simon Willison 順手用 Claude for Chrome 幫圖表加上了百分比標籤——這可能是全文最實用的部分。

swe-bench claude-code gemini minimax chinese-ai openai simon-willison leaderboard agentic-coding

Kimi K2.5 用 RL 訓練 Agent 指揮官 — SemiAnalysis 實測：Claude 的 Agent Teams 反而更慢更貴

CP-59 2026-02-10 · SemiAnalysis (@SemiAnalysis_)

SemiAnalysis 深度拆解 Kimi K2.5 的 agent swarm 架構：不靠 prompt 魔法，直接用 RL 訓練一個「指揮官」來決定何時開分支、何時平行化。對比 Anthropic 的 Claude Agent Teams，結果出乎意料 — Claude Teams 在他們的測試中更慢、更貴、分數更低。這篇揭示了 multi-agent 從「prompt 工程」走向「分散式排程問題」的轉變。

agent-swarms kimi moonshot semianalysis claude-code multi-agent reinforcement-learning agentic-coding