benchmarks - 標籤

Gemma 4 登場 — Google 的開源四兄弟，Token 效率屌打對手但智力還差一截

MP-275 2026-04-10 · @ArtificialAnlys on X

Google 發布 Gemma 4 開源模型家族：四種尺寸、全系列支援多模態、推理模式、256K context。旗艦 31B 在 token 效率上碾壓 Qwen3.5 27B（少用 2.5 倍 token），但智力分數還差 3 分。小型 E2B 可以塞進手機跑。

MP-39 2026-02-07 · Anthropic Engineering Blog (Gian Segato)

Anthropic 發現 agentic coding benchmark 的分數差距，可能不是模型能力差異，而是跑測試的硬體配置不同。在 Terminal-Bench 2.0 上，最窮和最富的硬體設定差了整整 6 個百分點。下次看到排行榜差 2-3% 就宣稱「我們贏了」的，先打個問號。