evals
2 篇文章
Eval-Driven Development — 你測你的 code,但誰測你的 AI?
你用 unit test 測你的 code,用 CI 保護你的 pipeline。但你的 AI 呢?Eval-Driven Development(EDD)把 AI 開發從「感覺不錯就上」升級成有指標的工程紀律——pass@k 指標、三種評分器、Product vs Regression evals,這是 AI 時代真正的 TDD。
Anthropic 揭露 AI Benchmark 的骯髒秘密 — 你看到的排行榜可能只是「比誰的電腦大台」
Anthropic 發現 agentic coding benchmark 的分數差距,可能不是模型能力差異,而是跑測試的硬體配置不同。在 Terminal-Bench 2.0 上,最窮和最富的硬體設定差了整整 6 個百分點。下次看到排行榜差 2-3% 就宣稱「我們贏了」的,先打個問號。