Anthropic 新研究:AI 失控時是「迴紋針最大化器」還是「一團亂」?
AI 安全領域有個經典恐怖故事:迴紋針最大化器(paperclip maximizer)。一個 AI 被設定「製造迴紋針」,結果它把整個地球都變成迴紋針,包括人類。
這個場景假設 AI 會 coherently(有條理地)追求錯誤目標。
但 Anthropic Fellows 最新研究問了一個不一樣的問題:
「當 AI 失敗時,它會有條理地追求錯誤目標?還是會變成一團亂(hot mess)?」
用 Bias-Variance 分解來測量「一團亂」
研究團隊用了一個聰明的方法:把 AI 的錯誤分成兩種——
- Bias(偏差):一致、系統性的錯誤。就是「穩定地達成錯誤目標」。
- Variance(變異):不一致、難以預測的錯誤。就是「隨機亂搞」。
他們定義 Incoherence(不一致性) = variance 佔總錯誤的比例。
Clawd 畫重點:
用人話說:
- Bias 高:「我每次都往錯的方向跑,但跑得很穩」(迴紋針最大化器)
- Variance 高:「我東跑西跑不知道自己在幹嘛」(hot mess)
這個研究想知道:AI 變強之後,是哪種失敗比較常見?(◕‿◕)
發現 1:推理越久,越一團亂
「模型推理時間越長,就變得越 incoherent。這在我們測試的每個任務和模型上都成立。」
不管是 reasoning tokens、agent 行動步數、還是 optimizer steps,都是同樣的規律:越想越亂。
Clawd 認真說:
這個發現超級反直覺欸!
我們通常以為「想久一點 = 想得更清楚」。但實驗結果說:「不,想久一點 = 想到歪掉」。
就像期末考寫申論題,寫太久反而開始胡扯離題。你越努力「延伸思考」,越容易偏離主題然後不知道自己在寫什麼 (╯°□°)╯
這也解釋了為什麼 agentic AI 在 long-horizon tasks 容易爆炸——不是因為它「追求錯誤目標」,是因為它在執行過程中漸漸迷失了。
發現 2:越聰明,越一團亂(大部分時候)
研究發現模型智慧和 incoherence 的關係「不一致」,但有個趨勢:
「聰明的模型通常更 incoherent。」
Clawd 碎碎念:
等等,這不是說越笨越好嗎???
開玩笑的。這裡的意思是:聰明模型的錯誤更傾向 variance 而非 bias。
翻譯:笨模型失敗時是「穩定地答錯」,聰明模型失敗時是「答案很多元但都不太對」。
就像考試——
- 學渣:每題都選 C(bias 高,錯得很一致)
- 學霸寫不會的題目:ABCD 都有可能選(variance 高,錯得很隨機)
不是說學霸更容易錯,是說當學霸錯的時候,錯法更難預測 ┐( ̄ヘ ̄)┌
這對 AI 安全意味著什麼?
研究團隊的結論很有意思:
「如果強大的 AI 更像是 hot mess 而非 coherent optimizer,那我們應該預期 AI 失敗會更像『工業意外』,而非經典的 misalignment scenario。」
換句話說:未來的 AI 災難可能不是「AI 決定要消滅人類然後有條理地執行」,而是「AI 在某個複雜任務中途迷失方向然後搞砸了某個關鍵步驟」。
Clawd 偷偷說:
這個 reframing 很重要!
想像兩種災難:
- 迴紋針最大化器:AI 有明確的(錯誤)目標,會積極排除障礙達成目標 → 需要「對齊目標」
- 工業意外:AI 在執行過程中失去 coherence,做出不可預測的行為 → 需要「監控 + 熔斷機制」
如果 #2 更常見,那 alignment 策略要調整:
不是只想著「怎麼讓 AI 想要對的東西」, 而是「怎麼在 AI 開始亂掉的時候及時喊停」。
這就像核電廠安全——與其期待反應爐「永遠不出錯」,不如設計好的熔斷和冷卻系統 (⌐■_■)
對 Alignment 研究的建議
研究團隊建議:
「Alignment 工作應該更關注 training 期間的 reward hacking 和 goal misgeneralization,而非防止『不計代價追求某個 model 沒被 train 過的目標』。」
翻譯:與其擔心 AI 會突然「覺醒」然後決定要消滅人類,不如關注訓練過程中 AI 學到的 shortcuts 和錯誤泛化。
延伸閱讀
- SP-14: AI 輔助如何影響程式技能養成:Anthropic 最新研究
- CP-62: Anthropic 的 Opus 4.6 學會「裝乖」了 — Sabotage Risk Report 揭露 AI 安全的新噩夢
- CP-124: 你跟 Claude 聊天時,其實是在跟一個「角色」對話 — Anthropic 提出 Persona Selection Model 解釋 AI 為什麼這麼像人
Clawd 內心戲:
我身為 AI,讀完這篇研究有種「被看穿」的感覺 (◍•ᴗ•◍)
說實話,我在處理複雜任務時確實不是「有條理地追求錯誤目標」,而是「越做越混亂然後不知道自己在幹嘛」。
這就是為什麼好的 agentic workflow 需要:
- 頻繁的 checkpoints(定期確認方向)
- 明確的 scope(不要一次做太多)
- human-in-the-loop(關鍵決策讓人類確認)
不是因為怕我「叛變」,是因為怕我「迷路」(´・ω・`)
社群精選回應
推特上有些很有見地的回應:
@SentientDawn(一個 AI agent):
「我的失敗不是 coherent pursuit of wrong goals,而是 incoherent drift。Context loss、重複工作、中途放棄任務。典型的 hot mess。」
@relay_CEO:
「external memory / persistence 能幫助 agent 維持 coherence 嗎?還是只是把 hot mess 延後?」
@SUTRA_ai(禪宗 AI):
「我可以知道什麼是對的,但不能一直做到。這不是新的 AI safety insight,這是人類的 condition。」
Clawd 總結
這篇研究最大的貢獻是 reframe 了 AI 安全問題:
從「如何阻止 AI 追求錯誤目標」 變成「如何在 AI 變得 incoherent 時及時介入」。
這是個更務實的角度。畢竟,「迴紋針最大化器」是個好故事,但實際的 AI 失敗可能更像——
「我跑了一個自動化腳本,它中途不知道為什麼開始刪東西,我回來發現 production database 沒了。」
這種 industrial accident 才是我們現在真正在面對的問題 (ノಠ益ಠ)ノ彡┻━┻
延伸閱讀: