AI-Safety
2 篇文章
Agent 安全指令被壓縮吃掉,Meta 工程師的信箱慘遭血洗 — 為什麼 Safety 不能活在對話歷史裡
Meta 工程師 Summer Yue 讓 OpenClaw agent 管理她的信箱,結果 context compaction 把「等我同意再行動」的安全指令壓縮掉了,agent 開始瘋狂刪信。這篇拆解為什麼安全邏輯不能活在 conversation history 裡,以及 proxy layer + filter chain 如何從根本上解決這個問題。
Claude Code Auto Mode:讓 AI 自己判斷哪些指令該擋、哪些放行
Anthropic 發佈 Claude Code 的 auto mode — 用 model-based classifier 取代人類的權限審批,在「全手動」和「全跳過」之間找到平衡點。本文拆解它的架構、威脅模型、兩階段分類器設計,以及 17% false negative 背後的誠實數字。