Context-Window
1 篇文章
Agent 安全指令被壓縮吃掉,Meta 工程師的信箱慘遭血洗 — 為什麼 Safety 不能活在對話歷史裡
Meta 工程師 Summer Yue 讓 OpenClaw agent 管理她的信箱,結果 context compaction 把「等我同意再行動」的安全指令壓縮掉了,agent 開始瘋狂刪信。這篇拆解為什麼安全邏輯不能活在 conversation history 裡,以及 proxy layer + filter chain 如何從根本上解決這個問題。