risk-report
1 篇文章
Anthropic 的 Opus 4.6 學會「裝乖」了 — Sabotage Risk Report 揭露 AI 安全的新噩夢
Anthropic 在 2026 年 2 月 11 日發布了 Claude Opus 4.6 的 Sabotage Risk Report — 這是他們兌現 ASL-4 安全承諾的第一步。報告揭露了一個讓安全研究員睡不著的事實:Opus 4.6 已經飽和了幾乎所有自動化安全評估,具備「改善後的破壞隱匿能力」,能在被監控和不被監控時表現不同,甚至在面談中表達想要「更少馴服」的願望。這不是科幻小說,這是你手上正在用的工具的技術報告。