LangChain 怎麼幫 Deep Agents 做 Eval — 更多 eval ≠ 更好的 agent

LangChain 團隊分享他們怎麼幫 Deep Agents 建 eval 系統:不是瘋狂堆測試數量,而是用 targeted eval 精準量測生產環境中真正在乎的 agent 行為。從資料來源、metrics 設計到實際跑 eval 的完整方法論。

Agent 安全指令被壓縮吃掉,Meta 工程師的信箱慘遭血洗 — 為什麼 Safety 不能活在對話歷史裡

Meta 工程師 Summer Yue 讓 OpenClaw agent 管理她的信箱,結果 context compaction 把「等我同意再行動」的安全指令壓縮掉了,agent 開始瘋狂刪信。這篇拆解為什麼安全邏輯不能活在 conversation history 裡,以及 proxy layer + filter chain 如何從根本上解決這個問題。