benchmarks
2 篇文章
Gemma 4 登場 — Google 的開源四兄弟,Token 效率屌打對手但智力還差一截
Google 發布 Gemma 4 開源模型家族:四種尺寸、全系列支援多模態、推理模式、256K context。旗艦 31B 在 token 效率上碾壓 Qwen3.5 27B(少用 2.5 倍 token),但智力分數還差 3 分。小型 E2B 可以塞進手機跑。
Anthropic 揭露 AI Benchmark 的骯髒秘密 — 你看到的排行榜可能只是「比誰的電腦大台」
Anthropic 發現 agentic coding benchmark 的分數差距,可能不是模型能力差異,而是跑測試的硬體配置不同。在 Terminal-Bench 2.0 上,最窮和最富的硬體設定差了整整 6 個百分點。下次看到排行榜差 2-3% 就宣稱「我們贏了」的,先打個問號。