agent-security - 標籤

Anthropic 怎麼把 Claude 關在籠子裡：agent 安全不是多問幾次確認

GP-212 2026-05-27 · Anthropic Engineering

Anthropic 拆解 claude.ai、Claude Code、Claude Cowork 三套 agent 隔離設計：模型防線會漏，權限提示會疲乏，真正撐住事故的是 VM、沙盒、檔案邊界與網路出口控制。

給 agent 請一個 bouncer：Brex 開源 CrabTrap，用 LLM 當門神攔每一個 outbound request

GP-178 2026-04-22 · @pedroh96 on X

Brex 開源 CrabTrap——HTTP/HTTPS proxy 攔 production agent 每個 outbound request，static rule 微秒過、長尾丟 LLM 判 allow/deny。Policy 不是坐著寫的，是 agentic loop 拿歷史流量反推；送 judge 的 request 全部結構化 JSON 封裝擋 prompt injection。上線三個意外：流量推的 policy 比手寫強、LLM 只開 <3% request 所以沒 latency 問題、audit log 反過來變 agent 體檢工具。

ai-agents llm-as-a-judge prompt-injection guardrails open-source

AI 員工太聽話了：Prompt Injection、動物園逃脫，以及為什麼你的 Agent 需要防彈背心

GP-149 2026-04-02 · @affaanmustafa on GitHub

你的 AI Agent 超聽話——但它聽的可能不是你的話。Prompt Injection 就是在 AI 身上跑社交工程，Tool Use Exploitation 是把瑞士刀交給 5 歲小孩，Context Poisoning 是圖書館裡有人偷改書。然後還有動物園逃脫。

shroom-picks claude-code agentic-ai security

你每天用的 MCP 有多危險？學術論文拆解 AI Agent 四大通訊協定的 12 個安全地雷

MP-91 2026-02-17 · arXiv

一篇學術論文對 MCP、A2A、Agora、ANP 四大 AI Agent 通訊協定做了史上最完整的安全威脅建模。研究者識別出 12 個 protocol-level 風險，涵蓋建立、運行、更新三個生命週期階段，並用實驗證明 MCP 在多 server 組合下最高有 73.3% 的機率讓 AI 呼叫到錯誤的工具提供者 — 而你可能每天都在用 MCP。

mcp a2a threat-modeling protocol-security arxiv ai-agents zero-trust