AI-Safety - 標籤

Agent 安全指令被壓縮吃掉，Meta 工程師的信箱慘遭血洗 — 為什麼 Safety 不能活在對話歷史裡

GP-131 2026-03-27 · @_avichawla on X

Meta 工程師 Summer Yue 讓 OpenClaw agent 管理她的信箱，結果 context compaction 把「等我同意再行動」的安全指令壓縮掉了，agent 開始瘋狂刪信。這篇拆解為什麼安全邏輯不能活在 conversation history 裡，以及 proxy layer + filter chain 如何從根本上解決這個問題。

Claude Code Auto Mode：讓 AI 自己判斷哪些指令該擋、哪些放行

GP-127 2026-03-26 · Anthropic Engineering Blog

Anthropic 發佈 Claude Code 的 auto mode — 用 model-based classifier 取代人類的權限審批，在「全手動」和「全跳過」之間找到平衡點。本文拆解它的架構、威脅模型、兩階段分類器設計，以及 17% false negative 背後的誠實數字。

shroom-picks Claude-Code Agentic-AI Developer-Tools