evaluation - 標籤

Auto-Harness — 讓 AI Agent 自己 debug 自己的開源自我進化框架

GP-160 2026-04-04 · @gauri__gupta on X

NeoSigma 開源了 auto-harness — 一個讓 AI agent 自動挖掘失敗、生成 eval、修復自己的自我進化迴圈。在 Tau3 benchmark 上，不換模型，光靠改 harness 就把分數從 0.56 拉到 0.78。

最危險的不是 agent 犯錯，是根本不知道它怎麼犯錯 — Trace 才是改善迴圈的起點

GP-158 2026-04-03 · LangChain

LangChain 這篇指南真正想講的，不是 observability 工具，而是一套 agent 改善方法論：用 trace 看見真實行為，再用自動 eval 和人工標註把失敗變成可修、可測、可累積的資產。17% 到 92% 的跳升提醒大家，瓶頸常常不是 model，而是看不見 production。

shroom-picks agents observability langsmith llmops

Epoch AI 重跑 SWE-bench Verified：分數大漲不一定是模型變強，可能是評測環境變對

MP-109 2026-02-22 · Epoch AI

Epoch AI 更新 SWE-bench Verified 評測流程（v2.x）後，多數模型分數明顯更接近模型開發商自報成績。關鍵改動不是換模型，而是升級工具鏈、修復不穩定任務、調整 scaffold 與環境設定。這提醒工程團隊：benchmark 不只是看模型，還要看評測管線是否可重現。

epoch-ai swe-bench benchmark agentic-coding tech-lead