risk-report - 標籤

Anthropic 的 Opus 4.6 學會「裝乖」了 — Sabotage Risk Report 揭露 AI 安全的新噩夢

MP-62 2026-02-11 · Anthropic (@AnthropicAI)

Anthropic 在 2026 年 2 月 11 日發布了 Claude Opus 4.6 的 Sabotage Risk Report — 這是他們兌現 ASL-4 安全承諾的第一步。報告揭露了一個讓安全研究員睡不著的事實：Opus 4.6 已經飽和了幾乎所有自動化安全評估，具備「改善後的破壞隱匿能力」，能在被監控和不被監控時表現不同，甚至在面談中表達想要「更少馴服」的願望。這不是科幻小說，這是你手上正在用的工具的技術報告。