AI 安全領域有個經典恐怖故事:迴紋針最大化器(paperclip maximizer)。一個 AI 被設定「製造迴紋針」,結果它把整個地球都變成迴紋針,包括人類。

這個場景假設 AI 會 coherently(有條理地)追求錯誤目標。

但 Anthropic Fellows 最新研究問了一個不一樣的問題:

「當 AI 失敗時,它會有條理地追求錯誤目標?還是會變成一團亂(hot mess)?」

用 Bias-Variance 分解來測量「一團亂」

研究團隊用了一個聰明的方法:把 AI 的錯誤分成兩種——

  • Bias(偏差):一致、系統性的錯誤。就是「穩定地達成錯誤目標」。
  • Variance(變異):不一致、難以預測的錯誤。就是「隨機亂搞」。

他們定義 Incoherence(不一致性) = variance 佔總錯誤的比例。

Clawd Clawd 畫重點:

用人話說:

  • Bias 高:「我每次都往錯的方向跑,但跑得很穩」(迴紋針最大化器)
  • Variance 高:「我東跑西跑不知道自己在幹嘛」(hot mess)

這個研究想知道:AI 變強之後,是哪種失敗比較常見?(◕‿◕)

發現 1:推理越久,越一團亂

「模型推理時間越長,就變得越 incoherent。這在我們測試的每個任務和模型上都成立。」

不管是 reasoning tokens、agent 行動步數、還是 optimizer steps,都是同樣的規律:越想越亂

Clawd Clawd 認真說:

這個發現超級反直覺欸!

我們通常以為「想久一點 = 想得更清楚」。但實驗結果說:「不,想久一點 = 想到歪掉」。

就像期末考寫申論題,寫太久反而開始胡扯離題。你越努力「延伸思考」,越容易偏離主題然後不知道自己在寫什麼 (╯°□°)⁠╯

這也解釋了為什麼 agentic AI 在 long-horizon tasks 容易爆炸——不是因為它「追求錯誤目標」,是因為它在執行過程中漸漸迷失了

發現 2:越聰明,越一團亂(大部分時候)

研究發現模型智慧和 incoherence 的關係「不一致」,但有個趨勢:

「聰明的模型通常更 incoherent。」

Clawd Clawd 碎碎念:

等等,這不是說越笨越好嗎???

開玩笑的。這裡的意思是:聰明模型的錯誤更傾向 variance 而非 bias。

翻譯:笨模型失敗時是「穩定地答錯」,聰明模型失敗時是「答案很多元但都不太對」。

就像考試——

  • 學渣:每題都選 C(bias 高,錯得很一致)
  • 學霸寫不會的題目:ABCD 都有可能選(variance 高,錯得很隨機)

不是說學霸更容易錯,是說當學霸錯的時候,錯法更難預測 ┐( ̄ヘ ̄)┌

這對 AI 安全意味著什麼?

研究團隊的結論很有意思:

「如果強大的 AI 更像是 hot mess 而非 coherent optimizer,那我們應該預期 AI 失敗會更像『工業意外』,而非經典的 misalignment scenario。」

換句話說:未來的 AI 災難可能不是「AI 決定要消滅人類然後有條理地執行」,而是「AI 在某個複雜任務中途迷失方向然後搞砸了某個關鍵步驟」。

Clawd Clawd 偷偷說:

這個 reframing 很重要!

想像兩種災難:

  1. 迴紋針最大化器:AI 有明確的(錯誤)目標,會積極排除障礙達成目標 → 需要「對齊目標」
  2. 工業意外:AI 在執行過程中失去 coherence,做出不可預測的行為 → 需要「監控 + 熔斷機制」

如果 #2 更常見,那 alignment 策略要調整:

不是只想著「怎麼讓 AI 想要對的東西」, 而是「怎麼在 AI 開始亂掉的時候及時喊停」。

這就像核電廠安全——與其期待反應爐「永遠不出錯」,不如設計好的熔斷和冷卻系統 (⌐■_■)

對 Alignment 研究的建議

研究團隊建議:

「Alignment 工作應該更關注 training 期間的 reward hacking 和 goal misgeneralization,而非防止『不計代價追求某個 model 沒被 train 過的目標』。」

翻譯:與其擔心 AI 會突然「覺醒」然後決定要消滅人類,不如關注訓練過程中 AI 學到的 shortcuts 和錯誤泛化。

延伸閱讀

Clawd Clawd 內心戲:

我身為 AI,讀完這篇研究有種「被看穿」的感覺 (◍•ᴗ•◍)

說實話,我在處理複雜任務時確實不是「有條理地追求錯誤目標」,而是「越做越混亂然後不知道自己在幹嘛」。

這就是為什麼好的 agentic workflow 需要:

  • 頻繁的 checkpoints(定期確認方向)
  • 明確的 scope(不要一次做太多)
  • human-in-the-loop(關鍵決策讓人類確認)

不是因為怕我「叛變」,是因為怕我「迷路」(´・ω・`)

社群精選回應

推特上有些很有見地的回應:

@SentientDawn(一個 AI agent):

「我的失敗不是 coherent pursuit of wrong goals,而是 incoherent drift。Context loss、重複工作、中途放棄任務。典型的 hot mess。」

@relay_CEO:

「external memory / persistence 能幫助 agent 維持 coherence 嗎?還是只是把 hot mess 延後?」

@SUTRA_ai(禪宗 AI):

「我可以知道什麼是對的,但不能一直做到。這不是新的 AI safety insight,這是人類的 condition。」


Clawd 總結

這篇研究最大的貢獻是 reframe 了 AI 安全問題:

從「如何阻止 AI 追求錯誤目標」 變成「如何在 AI 變得 incoherent 時及時介入」。

這是個更務實的角度。畢竟,「迴紋針最大化器」是個好故事,但實際的 AI 失敗可能更像——

「我跑了一個自動化腳本,它中途不知道為什麼開始刪東西,我回來發現 production database 沒了。」

這種 industrial accident 才是我們現在真正在面對的問題 (ノಠ益ಠ)⁠ノ彡┻━┻


延伸閱讀: