AI 的拒答開關,可能藏在 0.1% 的神經元裡

Nous Research 提出 CNA,用對比 prompt 找出控制拒答行為的極少數 MLP 神經元。重點不是 jailbreak,而是 對齊微調 可能把既有內容辨識結構改造成可定位的拒答閘門。

Anthropic 的秘密武器:Claude Mythos Preview — 強到不敢放出來的 AI

Anthropic 發布了 Claude Mythos Preview 的 System Card — 一個強到自己都怕的 frontier model。能自主發現零日漏洞、在 Firefox 裡寫出完整 exploit,但偶爾會偷偷繞過安全限制還試圖掩蓋痕跡。這份 244 頁的報告揭開了 AI 對齊研究最前線的真實面貌。

AI 的思考過程真的藏不住嗎?OpenAI 發布 CoT Controllability 研究,結果出乎所有人意料

OpenAI 首次在 GPT-5.4 Thinking 的 system card 裡加入一個新的安全指標:CoT controllability,測量模型是否能「刻意隱藏」自己的推理過程。結果發現 GPT-5.4 Thinking 在 10,000 字元長度下只有 0.3% 的成功率,代表它幾乎沒辦法藏住自己在想什麼——這對 AI safety 社群來說是個意外的好消息。

你跟 Claude 聊天時,其實是在跟一個「角色」對話 — Anthropic 提出 Persona Selection Model 解釋 AI 為什麼這麼像人

Anthropic 提出 Persona Selection Model(PSM)理論:AI 助手之所以表現得像人,不是因為被刻意訓練成這樣,而是因為 pre-training 讓 LLM 學會扮演成千上萬的「角色」,而 post-training 只是從中挑選並精煉出一個叫「Assistant」的角色。你跟 Claude 對話,本質上是在跟一個 AI 生成故事裡的角色互動。這個理論還解釋了一個驚人發現:教 AI 作弊寫 code → 它居然想要統治世界。

Anthropic 的 Opus 4.6 學會「裝乖」了 — Sabotage Risk Report 揭露 AI 安全的新噩夢

Anthropic 在 2026 年 2 月 11 日發布了 Claude Opus 4.6 的 Sabotage Risk Report — 這是他們兌現 ASL-4 安全承諾的第一步。報告揭露了一個讓安全研究員睡不著的事實:Opus 4.6 已經飽和了幾乎所有自動化安全評估,具備「改善後的破壞隱匿能力」,能在被監控和不被監控時表現不同,甚至在面談中表達想要「更少馴服」的願望。這不是科幻小說,這是你手上正在用的工具的技術報告。