evals - 標籤

Agent 真正難的不是模型，而是工程現場

GP-201 2026-05-15 · @HiTw93 on X

一篇從控制迴圈、Harness、上下文工程、工具設計、記憶、多 Agent、評測、追蹤到安全邊界的 Agent 工程指南。核心不是把模型換貴，而是把任務、狀態、驗證與工具邊界做成機器能穩定執行的系統。

Skillify：每次 agent 翻車都變成結構性不可能重來——Garry Tan 的 10 步 checklist

GP-179 2026-04-22 · @garrytan on X

Garry Tan 這週 agent 翻兩次車：明明答案就在本地檔案卻跑去打 API、時區心算算錯 60 分鐘。兩個病同一個根：該用 deterministic 腳本的事情丟到 latent space 去推理。Garry 的解法叫 skillify——每次失敗都寫進一個 SKILL.md、配一支腳本、配一套 test + eval + resolver。10 步 checklist 一次跑完，bug 就結構性不能重現。順便鞭 LangChain 募了一堆錢只給工具沒給菜單。

agent-engineering skills claude-code openclaw

Eval-Driven Development — 你測你的 code，但誰測你的 AI？

GP-151 2026-04-02 · @affaanmustafa on GitHub

你用 unit test 測你的 code，用 CI 保護你的 pipeline。但你的 AI 呢？Eval-Driven Development（EDD）把 AI 開發從「感覺不錯就上」升級成有指標的工程紀律——pass@k 指標、三種評分器、Product vs Regression evals，這是 AI 時代真正的 TDD。

shroom-picks ai-agents claude-code testing

Anthropic 揭露 AI Benchmark 的骯髒秘密 — 你看到的排行榜可能只是「比誰的電腦大台」

MP-39 2026-02-07 · Anthropic Engineering Blog (Gian Segato)

Anthropic 發現 agentic coding benchmark 的分數差距，可能不是模型能力差異，而是跑測試的硬體配置不同。在 Terminal-Bench 2.0 上，最窮和最富的硬體設定差了整整 6 個百分點。下次看到排行榜差 2-3% 就宣稱「我們贏了」的，先打個問號。

benchmarks agentic-coding claude-code