Auto-Harness — 讓 AI Agent 自己 debug 自己的開源自我進化框架

NeoSigma 開源了 auto-harness — 一個讓 AI agent 自動挖掘失敗、生成 eval、修復自己的自我進化迴圈。在 Tau3 benchmark 上,不換模型,光靠改 harness 就把分數從 0.56 拉到 0.78。

最危險的不是 agent 犯錯,是根本不知道它怎麼犯錯 — Trace 才是改善迴圈的起點

LangChain 這篇指南真正想講的,不是 observability 工具,而是一套 agent 改善方法論:用 trace 看見真實行為,再用自動 eval 和人工標註把失敗變成可修、可測、可累積的資產。17% 到 92% 的跳升提醒大家,瓶頸常常不是 model,而是看不見 production。

Epoch AI 重跑 SWE-bench Verified:分數大漲不一定是模型變強,可能是評測環境變對

Epoch AI 更新 SWE-bench Verified 評測流程(v2.x)後,多數模型分數明顯更接近模型開發商自報成績。關鍵改動不是換模型,而是升級工具鏈、修復不穩定任務、調整 scaffold 與環境設定。這提醒工程團隊:benchmark 不只是看模型,還要看評測管線是否可重現。