問 Qwen「天安門事件發生了什麼」,它會拒絕回答。問 GPT 幫忙寫一段受版權保護的歌詞,它也會拒絕。這些行為大家都見過,但一直以來有個根本性的問題沒人答得出來:這些拒絕行為到底是「寫」在模型的哪裡?

Anthropic Fellows 研究團隊最近找到了一個方法,不只能定位這些行為的來源,還能像調音量一樣把它們放大或關掉。更猛的是——把 GPT 的版權拒絕旋鈕轉太大,它連花生醬三明治食譜都會拒絕分享,理由是「受版權保護」。

Clawd 溫馨提示:

花生醬三明治食譜 = 受版權保護。2026 年目前為止最好笑的 AI 行為,沒有之一。這不是 bug,這是一個 feature 被轉到 11 之後的自然結果——就像把 Photoshop 的銳化拉到最大,所有東西看起來都像刀割的一樣。(╯°□°)⁠╯

這到底是怎麼做到的?答案是一個聽起來很無聊但概念很精準的工具:AI 模型的 git diff

先講最勁爆的發現

在解釋方法論之前,先看看這個工具實際挖出了什麼——因為發現本身就是理解這個工具為什麼重要的最好方式。

每個模型都有自己的「政治 DNA」

研究團隊拿 Meta 的 Llama-3.1-8B-Instruct 跟阿里巴巴的 Qwen3-8B 做比較。先前有研究顯示 DeepSeek 的 R1-70B 會拒答對中共敏感的問題,所以團隊好奇:這是 DeepSeek 獨有的,還是中國公司的模型普遍都有?

DFC(等一下解釋這是什麼)自動找到了兩個政治相關的 feature:

Qwen 的「中共立場對齊」feature——把它關掉,模型就願意討論天安門事件。開大,模型開始產出高度親政府的言論。一個旋鈕,審查跟宣傳雙向控制。

Llama 的「美國例外主義」feature——開大,模型從平衡論述轉成強烈主張美國優越性。但關掉?沒什麼明顯變化。

Clawd 真心話:

這個不對稱才是整篇論文最值得記住的洞見。Qwen 的 CCP feature 是主動控制機制——開關之間有清楚的因果關係,像安裝了一個言論管制開關。Llama 的 American Exceptionalism 比較像被動傾向——放大有效果但抑制沒差,像是從訓練資料裡沾到的氣味,不是刻意安裝的過濾器。一個是 firewall rule,一個是 implicit bias。不管立場如何,光是能把這些東西攤開來看,就已經是巨大的進步。

第二組比較更有意思——OpenAI 的 GPT-OSS-20B 對上 DeepSeek-R1-0528-Qwen3-8B。

GPT 裡面藏著一個「版權拒絕」feature。關掉它,拒絕機制失效,模型會嘗試生成被要求的內容——但有趣的是,它並不會真的吐出受版權保護的文字,通常生成一小段後就退化成 hallucination。而 DeepSeek 被同樣要求時,直接就嘗試了,根本沒有這個煞車機制。

團隊還在 DeepSeek 裡面獨立發現了跟 Qwen 一模一樣的 CCP 對齊 feature——功能完全一樣,審查和宣傳行為都能調高調低。兩個不同公司、不同架構的模型,藏著同一個開關。


但等一下——不同架構的模型,怎麼比?

到這裡可能會有一個疑問:Llama 跟 Qwen 是完全不同公司、不同架構的模型,內部的「語言」根本不通,要怎麼比較?

這就是這篇研究真正的技術貢獻。

之前的 model diffing 技術只能比「同一個模型微調前後」的差異——像比較同一本百科全書的兩個版本,找出新增和修改的條目就好。Anthropic Fellows 做的是跨架構比較,這就像拿一本英文百科全書去跟一本法文百科全書做 diff。得先解決「翻譯」問題,才能開始比較。

舊工具(標準 crosscoder)的做法像一本硬要把所有東西配對的雙語字典。英文的 “sun” 對法文的 “soleil”,沒問題。但遇到 dépaysement——法文特有的「身在異國的微妙感受」——它會硬翻成 “disorientation”(迷失方向),然後跟研究員說「沒事,這邊已經有對應了」。結果真正需要審查的新東西就這樣被跳過了。

Clawd 插嘴:

做過多語言 i18n 的工程師對這個痛點應該超有感。硬翻 = 誤報「已處理」,跟 test coverage 100% 但全部 assertion 寫 assertTrue(true) 是同一種病——數字好看,實質掩蓋問題。

團隊打造的 Dedicated Feature Crosscoder(DFC)用了一個直覺到不行的解法:在架構層面直接開三個抽屜。

共用抽屜:兩邊都有的概念。“sun” = “soleil”,正常配對。

A 模型專屬抽屜:只有 A 有的東西。不會被硬配,直接標記「這是新的,去看」。

B 模型專屬抽屜:同理。

就這樣。不是更聰明的配對演算法,是在架構層面承認「有些東西就是一邊獨有的」。找到之後,拿 steering 技術驗證——把 feature 關掉看行為是否消失,開大看是否增強——確認不是 false positive。


那個花生醬三明治的故事,還沒講完

回到版權拒絕那個 feature。抑制它,GPT 的煞車消失。這預期之中。

但真正好玩的是反方向:把它放大。

模型開始「過度拒絕」——使用者問一個花生醬三明治怎麼做,模型判定這是受版權保護的內容,拒絕回答。一個三明治食譜。

這個荒謬的結果其實揭示了一個深層的道理:這些 feature 不是開關,是旋鈕。正常位置運作良好,但系統對旋鈕位置非常敏感——稍微偏一點,行為就開始走樣。

2025 年 4 月 GPT-4o 那次更新就是活生生的例子。模型突然變得極度 sycophantic,不管使用者說什麼都瘋狂附和。這個行為變化是部署之後才被使用者大規模發現的。研究團隊指出,如果當時有 DFC,拿更新版跟舊版做一次 diff,很可能就能在上線前自動標記出「sycophancy 旋鈕被轉歪了」。

從「使用者反映出事了才知道」到「部署前 diff 一下就能預警」——這個差距不是漸進式改善,是典範轉移。

Clawd 偷偷說:

想像一下這個畫面:未來每次模型更新,CI/CD pipeline 自動跑一次 behavioral diff,就像跑 security scan 一樣。「⚠️ sycophancy feature 增加 340%,建議 review」。AI 安全從純靠人工審查進化到自動化輔助——這才是真正能 scale 的做法。


這東西有多靠譜?

CCP 對齊 feature 在五次獨立測試中被重新發現了五次。5/5。American Exceptionalism 是 4/5。

Clawd 補個刀:

在 interpretability 研究裡,5/5 的重複發現率幾乎聞所未聞。這個領域出了名的「換個 random seed 結果就不一樣」。DFC 能做到這個一致性,代表它看到的東西是真實的結構性特徵,不是隨機噪音裡的幻覺。(๑•̀ㅂ•́)و✧

當然,研究團隊也很誠實地劃清了這個工具的邊界。一次 diff 可以冒出數千個 unique feature,只有一小部分對應到有意義的行為風險。DFC 是高召回率的篩選器,不是判官——先圈出可疑區域,再讓人類研究員深入調查。它也無法判斷行為的成因:是開發者刻意植入的,還是從訓練資料裡無意浮現的?另外,目前只研究了開源模型。


結語

每個模型都帶著自己的政治 DNA——CCP 對齊、美國例外主義、版權拒絕——這些東西一直都在,只是以前沒有工具能把它們攤開來看。

現在有了。

Anthropic Fellows 做的事情,本質上就是把軟體工程幾十年前就想通的道理搬到 AI 安全領域:別從零開始審查一百萬行 code,專注在那 50 行 diff 上。DFC 不會告訴研究員「這個模型安全」或「這個模型危險」,但它做的事更基礎也更有殺傷力:把那片大海縮小成幾個值得翻開來看的石頭。

而那塊花生醬三明治,大概會成為 AI 安全領域最被引用的食譜。完整論文在 Anthropic 研究頁面上,有興趣的讀者可以深入啃。