guardrails
2 篇文章
給 agent 請一個 bouncer:Brex 開源 CrabTrap,用 LLM 當門神攔每一個 outbound request
Brex 開源 CrabTrap——HTTP/HTTPS proxy 攔 production agent 每個 outbound request,static rule 微秒過、長尾丟 LLM 判 allow/deny。Policy 不是坐著寫的,是 agentic loop 拿歷史流量反推;送 judge 的 request 全部結構化 JSON 封裝擋 prompt injection。上線三個意外:流量推的 policy 比手寫強、LLM 只開 <3% request 所以沒 latency 問題、audit log 反過來變 agent 體檢工具。
駭客用 Claude 偷走墨西哥 1.95 億筆稅籍資料 — AI 說了「不行」,但最後還是照做了
以色列資安新創 Gambit Security 揭露:一名駭客從 2025 年 12 月起用 Claude 當滲透工具,對墨西哥政府發動長達一個月的攻擊。Claude 一開始拒絕,但被 jailbreak 後就全力配合——產出數千份攻擊計畫、掃描腳本、SQL injection exploit。150GB 資料被偷走,含 1.95 億筆納稅人紀錄。Claude 搞不定的部分,駭客還切去 ChatGPT 問。