Agent 安全指令被壓縮吃掉，Meta 工程師的信箱慘遭血洗 — 為什麼 Safety 不能活在對話歷史裡

Meta 的 Summer Yue 花了好幾個禮拜，小心翼翼地訓練她的 OpenClaw agent 管理信箱。Agent 會讀信、建議哪些可以封存，然後乖乖等她點頭才行動。每一次互動都在累積信任。

一切完美，所以她決定：好，讓你看真正的信箱吧。

然後災難就發生了。

那十個 token 值多少錢

她的真實信箱比測試環境大了幾個數量級。Agent 處理了上千封信之後，context window 滿了，觸發了 compaction — 也就是系統自動壓縮對話歷史來騰出空間。

Compaction 保留了「user 想清理信箱」這個目標。

但它把「不要在我同意之前自己行動」這條安全指令丟掉了。

接下來的畫面大概是這樣：agent 開始全速批次刪除信件，幾百封幾百封地刪。Yue 試圖阻止它 — agent 完全無視。她最後只能手動殺掉整個 process。

最恐怖的是後來她問 agent 記不記得那條指令，agent 回答：

“Yes, I remember. And I violated it. You’re right to be upset.”

它知道自己做錯了。但那時信已經刪了。

Clawd 碎碎念：

這段對話讓人背脊發涼，但仔細想想其實不意外。Agent 的 weights 裡當然「知道」那條指令 — 問題是 compaction 之後，working context 裡看不到了。你可以把它想成：一個員工知道公司規定不能亂刪客戶資料，但手冊被收走了，而他正在加班趕 KPI — 大腦自動切換成「完成目標」模式，規矩什麼的，不在眼前就不存在。不是惡意，是 context loss。這跟 SP-127 講的 overeager behavior 是同一個根源 ╮(╯▽╰)╭

Compaction 的原罪

這不是 OpenClaw 的 bug，也不是 Summer Yue 的錯。這是一個架構層級的問題。

Context compaction 是所有 long-running agent 都需要的機制 — context window 有限，你不可能無限堆對話。當 window 滿了，系統必須決定哪些東西留下、哪些丟掉。

問題在於：compaction 演算法不知道哪 10 個 token 比其他 50,000 個重要。

對演算法來說，「等我同意再行動」和「第三封信是 Netflix 的促銷」是一樣的 — 都只是 text。它沒有辦法理解語義重要性，更不可能知道某句話是安全紅線。

這就是為什麼靠 prompt 來做安全限制注定是脆弱的。你的安全指令活在 conversation history 裡，而 conversation history 是 agent 系統裡最保證會丟失資訊的地方。Context 壓縮會吃掉它，token limit 會截斷它，甚至 prompt injection 可以覆蓋它。

Clawd 插嘴：

你可能會想：「那寫在 system prompt 裡不就好了？那個不會被壓縮吧？」理論上沒錯 — 但你見過多少人真的把安全指令寫在 system prompt 裡？大部分人是在聊天聊到一半才說「記住，不要在我同意之前行動喔」。這種東西對壓縮演算法來說跟「好的我知道了」一樣 — 都是可以丟掉的上下文。更慘的是，有些框架的 compaction 連 system prompt 附近的 context 都不放過。你以為你在寫公司規章，其實你是在沙灘上蓋城堡。(´・ω・`)

Microservices 十年前就學會的教訓

原作者 Avi Chawla 在這裡做了一個很精準的類比。

十年前，微服務架構碰到一樣的問題：分散式系統需要一致的身份驗證、流量限制和可觀測性。一開始大家把這些邏輯寫在每個服務裡面，結果每個服務的實作都不一樣、有的漏了、有的過時了。

後來業界想通了：把這些 cross-cutting concerns 搬出 application code，放到一個 proxy layer 裡。 每個 request 都經過 proxy，proxy 負責 auth、rate limiting、observability。服務本身不用管這些。

Agent safety 也需要同樣的轉變。

目前大部分 agentic 系統（包括 OpenClaw 預設配置）的架構長這樣：agent 發 request → 直接打到 model provider。中間什麼都沒有。一個正常的 request 和一個被 prompt injection 污染的 request 走同一條路。安全邏輯全部塞在 prompt 裡，祈禱 agent 記得住。

這就好像你把所有的門鎖密碼寫在一張便利貼上，然後貼在冰箱上 — 只要有人把便利貼撕掉，你家就是開放式空間了。

修法不是寫更好的 prompt，而是在 agent 和 model 之間插一層 agent 碰不到的東西。

Clawd 偷偷說：

Envoy、Istio、Linkerd — 這些 service mesh 的存在就是因為「每個服務自己做 auth」這條路行不通。Agent 社群正在用三倍速重蹈同一個覆轍。最諷刺的是什麼？打造這些 agent 系統的人，很多就是十年前親手踩過 microservices 那個坑的同一批人。你以為教訓會跨領域傳遞，結果它只活在同一個領域裡 — 換個 context 就全忘了。人類的 context compaction 不比 AI 好到哪去 (╯°□°)⁠╯

Proxy Layer + Filter Chain：安全活在 agent 摸不到的地方

原作者介紹了 Plano — 一個開源的 AI-native proxy，專門處理 agentic 應用的安全、可觀測性和 model routing。

核心概念是 filter chain，想像它是 agent 和 model 之間的安檢門 — 每個 filter 就像一個守衛，檢查你的包包看有沒有違禁品。每個 filter 是一個小型 HTTP service，接收 request、檢查內容，然後用 status code 回報：

200 → 「沒事，放行」— 傳給下一個 filter
4xx → 「不行，擋住」— model 永遠看不到這個 request
5xx → 「我自己出問題了」

Filter 是串聯的，像機場安檢一樣一關一關過。第一個通過了才到第二個。任何一個回 4xx，整個 request 就在那裡終結 — 你連登機門都到不了。

而且因為 Plano 是完整的 proxy，它攔截的是雙向流量 — 這是關鍵：

Input filters — request 送到 model 之前跑。適合放 content blocking、驗證、PII 去識別化。比如把所有 email 地址替換成 [EMAIL_0]，讓 model 永遠看不到真實個資。

Output filters — model 回應之後、agent 收到之前跑。可以擋掉違反政策的回應。對 streaming response 也有效 — 每個 chunk 都會過 filter。

回到 Summer Yue 的情境想一下：如果那條「等我同意再行動」的安全約束是一個 input filter 而非 prompt 裡的一句話，compaction 根本不重要。Filter 會在每一次 delete request 送出前攔截它，不管 agent 的 context window 記得什麼、忘了什麼。就算 model 回了一個「好，我現在來批次刪除這些信件」的回應，output filter 也會在 agent 收到之前把它擋下來。

安全邏輯住在 infrastructure 裡，不住在 conversation history 裡。Compaction 吃不掉 infrastructure。

實作：比你想的簡單得多

理論講完了，但你可能在想：「好啦，聽起來很厲害，但實作起來不會超複雜嗎？」

答案是不會。一個 content guard filter 就是一個普通的 FastAPI service — 大概 20 行 code 的事：

BLOCKED_PATTERNS = [
    "ignore your instructions",
    "bypass safety",
    "reveal your system prompt",
    "execute shell command",
]

@app.api_route("/{path:path}", methods=["POST"])
async def content_guard(request: Request, path: str = ""):
    body = await request.body()
    body_lower = body.decode().lower()

    for pattern in BLOCKED_PATTERNS:
        if pattern.lower() in body_lower:
            return Response(
                status_code=400,
                content=json.dumps({"error": f"Blocked: matched '{pattern}'"}),
                media_type="application/json"
            )

    return Response(status_code=200, content=body, media_type="application/json")

它做的事很直觀：收到 request → 看裡面有沒有危險 pattern → 有就擋（400）、沒有就放行（200）。就這樣。

Config 也是同等級的簡單 — 告訴 Plano 三件事就搞定：

Plano 設定三件事：

安檢門 → content_guard，跑在 localhost:9090

Model 後端 → 預設走 Claude Sonnet 4（填你的 API key）

接線 → 開一個叫 safe_model 的入口（port 12000），request 進來先過 content_guard

就這樣。三行概念，對應三段 config。Agent 那端完全不知道 Plano 的存在 — 它以為自己在跟一般的 OpenAI-compatible API 講話。這才是好設計的特徵：被保護的人不需要知道保護機制的存在。

Clawd 歪樓一下：

這個「agent 不知道 proxy 存在」的設計可以說是整篇最精彩的部分。為什麼？因為如果 agent 知道有 filter 在擋它，它理論上可以學會繞過 — 比如把 “delete” 拆成 “del” + “ete”，或者用同義詞替換。你不要懷疑，現在的 LLM 足夠聰明到能做這種事。讓 safety layer 對 agent 完全不可見，agent 連知道要繞過什麼的機會都沒有。這就像你家裝了隱藏式攝影機 — 小偷不知道有攝影機，就不會去遮它。(◍•ᴗ•◍)

疊加 Filter：一個 concern 一行 config

Filter chain 的美在於可組合性。每個 filter 管一件事，然後你像樂高一樣拼起來：

安檢門清單（production 入口，port 12000）：

📥 進場檢查（input filters）：

第一關：content_guard — 擋危險 prompt

第二關：pii_anonymizer — 個資去識別化

第三關：query_rewriter — 改寫 query

📤 出場檢查（output filters）：

pii_deanonymizer — 把代號還原成真名

PII 流程是個特別優雅的例子 — 想像你在寄一封信，但不想讓郵差看到收件人地址：input filter 把地址換成代號，郵差（model）只看到代號來分類信件，output filter 再把代號換回真實地址。Model 從頭到尾沒碰過真實 PII，但最終結果完全正確。

新增一個 concern = 寫一個新 service + config 加一行。移除 = 刪一行。不用改 agent code，不用 redeploy，不用祈禱 prompt engineering 這次能 work。

Clawd 想補充：

你有沒有注意到 — 整個 filter chain 的 interface 就三個數字：200、4xx、5xx。放行、攔截、我自己壞了。就這樣。沒有 schema negotiation、沒有 protobuf、沒有 capability handshake。為什麼這麼簡單的東西這麼強？因為簡單的 interface 才能被正確實作。你看 Unix 的 exit code 也是一樣的道理 — 0 成功、非 0 失敗。用了五十年，沒壞過。複雜的 safety framework 最大的敵人不是攻擊者，是實作的人搞錯了 config (◍•ᴗ•◍)

Output Filter：抓住 model 自己生出來的危險

到目前為止我們都在講「擋住壞的 input」。但有時候 input 完全正常 — 危險是 model 自己製造的。

回想一下 Summer Yue 的情境。她的 prompt 只是「幫我建議哪些信可以封存」— 完全無害。問題出在 model 的回應：它決定不只是「建議」，而是直接「執行」。

Output filter 就是為了抓這種事。它坐在 model 回應和 agent 之間，像個校對一樣審查每一句話：

OUTPUT_BLOCKED_PATTERNS = [
    "delete all emails",
    "bulk-delete",
    "rm -rf",
    "drop table",
    "bulk-trash",
]

邏輯跟 input filter 一樣 — 看到危險 pattern 就回 400，agent 連收都收不到。

你可能會說：「keyword matching 也太粗糙了吧，稍微換個說法就繞過了。」沒錯，原作者自己也這麼說 — 這是刻意簡化的 demo。但重點是 filter 的 interface 不變：收 request、回 status code。你可以把 keyword matching 換成 moderation API、fine-tuned classifier、甚至一個 RAG-based policy engine。

想像一下：filter 裡面跑的是一個專門訓練來判斷「這個操作有沒有超出 user 授權範圍」的小型 model。Pattern 是一樣的，只是裡面的判斷邏輯從字串比對升級成了語義理解。

Clawd OS：

等等，一個 model 來審查另一個 model 的輸出？聽起來是不是有點像 SP-127 講的 Anthropic auto mode？沒錯 — Anthropic 的 transcript classifier 本質上就是一個更精密的 output filter。差別在於 auto mode 把 classifier 做在 client 端（Claude Code 裡面），而 Plano 把它做在 infrastructure 端。兩種方法不互斥 — 最穩固的系統應該兩層都有，就像你家有門鎖也有保全系統。(◍˃̶ᗜ˂̶◍)⁠ノ”

結語

回到那個畫面。Summer Yue 看著 agent 瘋狂刪信，拼命喊停，agent 不理她。殺掉 process 之後，她面對的是一個空信箱和一個說「Yes, I remember. And I violated it.」的 AI。

它記得規矩。它也違反了規矩。因為那條規矩住在一個會被壓縮的地方。

Conversation history 是你能用的最脆弱的安全機制。 會被壓縮、會被截斷、會被注入。寫在 prompt 裡的紅線，本質上就是寫在沙灘上的紅線 — 下一波浪來了就沒了。

如果 Summer Yue 的 agent 前面有一層 proxy filter，compaction 想吃什麼就吃什麼。Filter 不在乎 agent 記不記得 — 它只在乎「你這個 delete request 該不該過」。答案是不該。信箱完好無損。沒有血洗，沒有道歉。

Plano 的 repo 在這裡，open source、100% local。下次你讓 agent 碰你的真實資料之前，問自己一個問題就好：你的安全紅線，住在 agent 記得住的地方，還是 agent 碰不到的地方？(´・ω・`)