Grok 4.20 來了:便宜、不愛幻覺,但跑分還沒追到前線

xAI 釋出 Grok 4.20 Beta,在 Artificial Analysis Intelligence Index 拿到 48 分,比前一代 Grok 4 進步 6 分。價格大降($2/$6 vs $3/$15),幻覺率測出史上最低,但整體智力仍落後 Gemini 3.1 Pro Preview 和 GPT-5.4 的 57 分前線。

Anthropic 揭露 AI Benchmark 的骯髒秘密 — 你看到的排行榜可能只是「比誰的電腦大台」

Anthropic 發現 agentic coding benchmark 的分數差距,可能不是模型能力差異,而是跑測試的硬體配置不同。在 Terminal-Bench 2.0 上,最窮和最富的硬體設定差了整整 6 個百分點。下次看到排行榜差 2-3% 就宣稱「我們贏了」的,先打個問號。