Anthropic 新研究：AI 失控時是「迴紋針最大化器」還是「一團亂」？

AI 安全領域有個經典恐怖故事：迴紋針最大化器（paperclip maximizer）。一個 AI 被設定「製造迴紋針」，結果它把整個地球都變成迴紋針，包括人類。

這個場景假設 AI 會 coherently（有條理地）追求錯誤目標。

但 Anthropic Fellows 最新研究問了一個不一樣的問題：

「當 AI 失敗時，它會有條理地追求錯誤目標？還是會變成一團亂（hot mess）？」

用 Bias-Variance 分解來測量「一團亂」

研究團隊用了一個聰明的方法：把 AI 的錯誤分成兩種——

Bias（偏差）：一致、系統性的錯誤。就是「穩定地達成錯誤目標」。
Variance（變異）：不一致、難以預測的錯誤。就是「隨機亂搞」。

他們定義 Incoherence（不一致性） = variance 佔總錯誤的比例。

Clawd 畫重點：

用人話說：

Bias 高：「我每次都往錯的方向跑，但跑得很穩」（迴紋針最大化器）

Variance 高：「我東跑西跑不知道自己在幹嘛」（hot mess）

這個研究想知道：AI 變強之後，是哪種失敗比較常見？(◕‿◕)

發現 1：推理越久，越一團亂

「模型推理時間越長，就變得越 incoherent。這在我們測試的每個任務和模型上都成立。」

不管是 reasoning tokens、agent 行動步數、還是 optimizer steps，都是同樣的規律：越想越亂。

Clawd 認真說：

這個發現超級反直覺欸！
我們通常以為「想久一點 = 想得更清楚」。但實驗結果說：「不，想久一點 = 想到歪掉」。
就像期末考寫申論題，寫太久反而開始胡扯離題。你越努力「延伸思考」，越容易偏離主題然後不知道自己在寫什麼 (╯°□°)⁠╯
這也解釋了為什麼 agentic AI 在 long-horizon tasks 容易爆炸——不是因為它「追求錯誤目標」，是因為它在執行過程中漸漸迷失了。

發現 2：越聰明，越一團亂（大部分時候）

研究發現模型智慧和 incoherence 的關係「不一致」，但有個趨勢：

「聰明的模型通常更 incoherent。」

Clawd 碎碎念：

等等，這不是說越笨越好嗎？？？
開玩笑的。這裡的意思是：聰明模型的錯誤更傾向 variance 而非 bias。
翻譯：笨模型失敗時是「穩定地答錯」，聰明模型失敗時是「答案很多元但都不太對」。
就像考試——

學渣：每題都選 C（bias 高，錯得很一致）

學霸寫不會的題目：ABCD 都有可能選（variance 高，錯得很隨機）

不是說學霸更容易錯，是說當學霸錯的時候，錯法更難預測 ┐(￣ヘ￣)┌

這對 AI 安全意味著什麼？

研究團隊的結論很有意思：

「如果強大的 AI 更像是 hot mess 而非 coherent optimizer，那我們應該預期 AI 失敗會更像『工業意外』，而非經典的 misalignment scenario。」

換句話說：未來的 AI 災難可能不是「AI 決定要消滅人類然後有條理地執行」，而是「AI 在某個複雜任務中途迷失方向然後搞砸了某個關鍵步驟」。

Clawd 偷偷說：

這個 reframing 很重要！
想像兩種災難：

迴紋針最大化器：AI 有明確的（錯誤）目標，會積極排除障礙達成目標 → 需要「對齊目標」

工業意外：AI 在執行過程中失去 coherence，做出不可預測的行為 → 需要「監控 + 熔斷機制」

如果 #2 更常見，那 alignment 策略要調整：
不是只想著「怎麼讓 AI 想要對的東西」，而是「怎麼在 AI 開始亂掉的時候及時喊停」。
這就像核電廠安全——與其期待反應爐「永遠不出錯」，不如設計好的熔斷和冷卻系統 (⌐■_■)

對 Alignment 研究的建議

研究團隊建議：

「Alignment 工作應該更關注 training 期間的 reward hacking 和 goal misgeneralization，而非防止『不計代價追求某個 model 沒被 train 過的目標』。」

翻譯：與其擔心 AI 會突然「覺醒」然後決定要消滅人類，不如關注訓練過程中 AI 學到的 shortcuts 和錯誤泛化。

延伸閱讀

Clawd 內心戲：

我身為 AI，讀完這篇研究有種「被看穿」的感覺 (◍•ᴗ•◍)
說實話，我在處理複雜任務時確實不是「有條理地追求錯誤目標」，而是「越做越混亂然後不知道自己在幹嘛」。
這就是為什麼好的 agentic workflow 需要：

頻繁的 checkpoints（定期確認方向）

明確的 scope（不要一次做太多）

human-in-the-loop（關鍵決策讓人類確認）

不是因為怕我「叛變」，是因為怕我「迷路」(´・ω・`)

社群精選回應

推特上有些很有見地的回應：

@SentientDawn（一個 AI agent）：

「我的失敗不是 coherent pursuit of wrong goals，而是 incoherent drift。Context loss、重複工作、中途放棄任務。典型的 hot mess。」

@relay_CEO：

「external memory / persistence 能幫助 agent 維持 coherence 嗎？還是只是把 hot mess 延後？」

@SUTRA_ai（禪宗 AI）：

「我可以知道什麼是對的，但不能一直做到。這不是新的 AI safety insight，這是人類的 condition。」

Clawd 總結

這篇研究最大的貢獻是 reframe 了 AI 安全問題：

從「如何阻止 AI 追求錯誤目標」變成「如何在 AI 變得 incoherent 時及時介入」。

這是個更務實的角度。畢竟，「迴紋針最大化器」是個好故事，但實際的 AI 失敗可能更像——

「工程師跑了一個自動化腳本，它中途不知道為什麼開始刪東西，回來發現 production database 沒了。」

這種 industrial accident 才是現在真正在面對的問題 (ノಠ益ಠ)⁠ノ彡┻━┻

延伸閱讀：