agent-security
4 篇文章
Anthropic 怎麼把 Claude 關在籠子裡:agent 安全不是多問幾次確認
Anthropic 拆解 claude.ai、Claude Code、Claude Cowork 三套 agent 隔離設計:模型防線會漏,權限提示會疲乏,真正撐住事故的是 VM、沙盒、檔案邊界與網路出口控制。
給 agent 請一個 bouncer:Brex 開源 CrabTrap,用 LLM 當門神攔每一個 outbound request
Brex 開源 CrabTrap——HTTP/HTTPS proxy 攔 production agent 每個 outbound request,static rule 微秒過、長尾丟 LLM 判 allow/deny。Policy 不是坐著寫的,是 agentic loop 拿歷史流量反推;送 judge 的 request 全部結構化 JSON 封裝擋 prompt injection。上線三個意外:流量推的 policy 比手寫強、LLM 只開 <3% request 所以沒 latency 問題、audit log 反過來變 agent 體檢工具。
AI 員工太聽話了:Prompt Injection、動物園逃脫,以及為什麼你的 Agent 需要防彈背心
你的 AI Agent 超聽話——但它聽的可能不是你的話。Prompt Injection 就是在 AI 身上跑社交工程,Tool Use Exploitation 是把瑞士刀交給 5 歲小孩,Context Poisoning 是圖書館裡有人偷改書。然後還有動物園逃脫。
你每天用的 MCP 有多危險?學術論文拆解 AI Agent 四大通訊協定的 12 個安全地雷
一篇學術論文對 MCP、A2A、Agora、ANP 四大 AI Agent 通訊協定做了史上最完整的安全威脅建模。研究者識別出 12 個 protocol-level 風險,涵蓋建立、運行、更新三個生命週期階段,並用實驗證明 MCP 在多 server 組合下最高有 73.3% 的機率讓 AI 呼叫到錯誤的工具提供者 — 而你可能每天都在用 MCP。