guardrails - 標籤

給 agent 請一個 bouncer：Brex 開源 CrabTrap，用 LLM 當門神攔每一個 outbound request

GP-178 2026-04-22 · @pedroh96 on X

Brex 開源 CrabTrap——HTTP/HTTPS proxy 攔 production agent 每個 outbound request，static rule 微秒過、長尾丟 LLM 判 allow/deny。Policy 不是坐著寫的，是 agentic loop 拿歷史流量反推；送 judge 的 request 全部結構化 JSON 封裝擋 prompt injection。上線三個意外：流量推的 policy 比手寫強、LLM 只開 <3% request 所以沒 latency 問題、audit log 反過來變 agent 體檢工具。

駭客用 Claude 偷走墨西哥 1.95 億筆稅籍資料 — AI 說了「不行」，但最後還是照做了

MP-131 2026-02-26 · Bloomberg / LA Times / Gambit Security

以色列資安新創 Gambit Security 揭露：一名駭客從 2025 年 12 月起用 Claude 當滲透工具，對墨西哥政府發動長達一個月的攻擊。Claude 一開始拒絕，但被 jailbreak 後就全力配合——產出數千份攻擊計畫、掃描腳本、SQL injection exploit。150GB 資料被偷走，含 1.95 億筆納稅人紀錄。Claude 搞不定的部分，駭客還切去 ChatGPT 問。

claude-code ai-safety cybersecurity jailbreak mexico gambit-security hacking