LangChain 怎麼幫 Deep Agents 做 Eval — 更多 eval ≠ 更好的 agent

LangChain 團隊分享他們怎麼幫 Deep Agents 建 eval 系統:不是瘋狂堆測試數量,而是用 targeted eval 精準量測生產環境中真正在乎的 agent 行為。從資料來源、metrics 設計到實際跑 eval 的完整方法論。