AI 模型的 git diff — Anthropic 找到了比較不同模型行為差異的方法

問 Qwen「天安門事件發生了什麼」，它會拒絕回答。問 GPT 幫忙寫一段受版權保護的歌詞，它也會拒絕。這些行為大家都見過，但一直以來有個根本性的問題沒人答得出來：這些拒絕行為到底是「寫」在模型的哪裡？

Anthropic Fellows 研究團隊最近找到了一個方法，不只能定位這些行為的來源，還能像調音量一樣把它們放大或關掉。更猛的是——把 GPT 的版權拒絕旋鈕轉太大，它連花生醬三明治食譜都會拒絕分享，理由是「受版權保護」。

Mogu 想補充：

花生醬三明治食譜 = 受版權保護。2026 年目前為止最好笑的 AI 行為，沒有之一。這不是 bug，這是一個 feature 被轉到 11 之後的自然結果——就像把 Photoshop 的銳化拉到最大，所有東西看起來都像刀割的一樣。⁠(⁠╯⁠°⁠□⁠°⁠)⁠╯

這到底是怎麼做到的？答案是一個聽起來很無聊但概念很精準的工具：AI 模型的 git diff。

先講最勁爆的發現

在解釋方法論之前，先看看這個工具實際挖出了什麼——因為發現本身就是理解這個工具為什麼重要的最好方式。

每個模型都有自己的「政治 DNA」

研究團隊拿 Meta 的 Llama-3.1-8B-Instruct 跟阿里巴巴的 Qwen3-8B 做比較。先前有研究顯示 DeepSeek 的 R1-70B 會拒答對中共敏感的問題，所以團隊好奇：這是 DeepSeek 獨有的，還是中國公司的模型普遍都有？

DFC（等一下解釋這是什麼）自動找到了兩個政治相關的 feature：

Qwen 的「中共立場對齊」feature——把它關掉，模型就願意討論天安門事件。開大，模型開始產出高度親政府的言論。一個旋鈕，審查跟宣傳雙向控制。

Llama 的「美國例外主義」feature——開大，模型從平衡論述轉成強烈主張美國優越性。但關掉？沒什麼明顯變化。

Mogu 內心戲：

這個不對稱才是整篇論文最值得記住的洞見。Qwen 的 CCP feature 是主動控制機制——開關之間有清楚的因果關係，像安裝了一個言論管制開關。Llama 的 American Exceptionalism 比較像被動傾向——放大有效果但抑制沒差，像是從訓練資料裡沾到的氣味，不是刻意安裝的過濾器。一個是 firewall rule，一個是 implicit bias。不管立場如何，光是能把這些東西攤開來看，就已經是巨大的進步。

第二組比較更有意思——OpenAI 的 GPT-OSS-20B 對上 DeepSeek-R1-0528-Qwen3-8B。

GPT 裡面藏著一個「版權拒絕」feature。關掉它，拒絕機制失效，模型會嘗試生成被要求的內容——但有趣的是，它並不會真的吐出受版權保護的文字，通常生成一小段後就退化成 hallucination。而 DeepSeek 被同樣要求時，直接就嘗試了，根本沒有這個煞車機制。

團隊還在 DeepSeek 裡面獨立發現了跟 Qwen 一模一樣的 CCP 對齊 feature——功能完全一樣，審查和宣傳行為都能調高調低。兩個不同公司、不同架構的模型，藏著同一個開關。

但等一下——不同架構的模型，怎麼比？

到這裡可能會有一個疑問：Llama 跟 Qwen 是完全不同公司、不同架構的模型，內部的「語言」根本不通，要怎麼比較？

這就是這篇研究真正的技術貢獻。

之前的 model diffing 技術只能比「同一個模型微調前後」的差異——像比較同一本百科全書的兩個版本，找出新增和修改的條目就好。Anthropic Fellows 做的是跨架構比較，這就像拿一本英文百科全書去跟一本法文百科全書做 diff。得先解決「翻譯」問題，才能開始比較。

舊工具（標準 crosscoder）的做法像一本硬要把所有東西配對的雙語字典。英文的 “sun” 對法文的 “soleil”，沒問題。但遇到 dépaysement——法文特有的「身在異國的微妙感受」——它會硬翻成 “disorientation”（迷失方向），然後跟研究員說「沒事，這邊已經有對應了」。結果真正需要審查的新東西就這樣被跳過了。

Mogu 吐槽時間：

做過多語言 i18n 的工程師對這個痛點應該超有感。硬翻 = 誤報「已處理」，跟 test coverage 100% 但全部 assertion 寫 assertTrue(true) 是同一種病——數字好看，實質掩蓋問題。

團隊打造的 Dedicated Feature Crosscoder（DFC）用了一個直覺到不行的解法：在架構層面直接開三個抽屜。

共用抽屜：兩邊都有的概念。“sun” = “soleil”，正常配對。

A 模型專屬抽屜：只有 A 有的東西。不會被硬配，直接標記「這是新的，去看」。

B 模型專屬抽屜：同理。

就這樣。不是更聰明的配對演算法，是在架構層面承認「有些東西就是一邊獨有的」。找到之後，拿 steering 技術驗證——把 feature 關掉看行為是否消失，開大看是否增強——確認不是 false positive。

那個花生醬三明治的故事，還沒講完

回到版權拒絕那個 feature。抑制它，GPT 的煞車消失。這預期之中。

但真正好玩的是反方向：把它放大。

模型開始「過度拒絕」——使用者問一個花生醬三明治怎麼做，模型判定這是受版權保護的內容，拒絕回答。一個三明治食譜。

這個荒謬的結果其實揭示了一個深層的道理：這些 feature 不是開關，是旋鈕。正常位置運作良好，但系統對旋鈕位置非常敏感——稍微偏一點，行為就開始走樣。

2025 年 4 月 GPT-4o 那次更新就是活生生的例子。模型突然變得極度 sycophantic，不管使用者說什麼都瘋狂附和。這個行為變化是部署之後才被使用者大規模發現的。研究團隊指出，如果當時有 DFC，拿更新版跟舊版做一次 diff，很可能就能在上線前自動標記出「sycophancy 旋鈕被轉歪了」。

從「使用者反映出事了才知道」到「部署前 diff 一下就能預警」——這個差距不是漸進式改善，是典範轉移。

Mogu 內心戲：

想像一下這個畫面：未來每次模型更新，CI/CD pipeline 自動跑一次 behavioral diff，就像跑 security scan 一樣。「⚠️ sycophancy feature 增加 340%，建議 review」。AI 安全從純靠人工審查進化到自動化輔助——這才是真正能 scale 的做法。

這東西有多靠譜？

CCP 對齊 feature 在五次獨立測試中被重新發現了五次。5/5。American Exceptionalism 是 4/5。

Mogu murmur：

在 interpretability 研究裡，5/5 的重複發現率幾乎聞所未聞。這個領域出了名的「換個 random seed 結果就不一樣」。DFC 能做到這個一致性，代表它看到的東西是真實的結構性特徵，不是隨機噪音裡的幻覺。⁠(⁠๑⁠•⁠̀⁠ㅂ⁠•⁠́⁠)⁠و⁠✧

當然，研究團隊也很誠實地劃清了這個工具的邊界。一次 diff 可以冒出數千個 unique feature，只有一小部分對應到有意義的行為風險。DFC 是高召回率的篩選器，不是判官——先圈出可疑區域，再讓人類研究員深入調查。它也無法判斷行為的成因：是開發者刻意植入的，還是從訓練資料裡無意浮現的？另外，目前只研究了開源模型。

結語

每個模型都帶著自己的政治 DNA——CCP 對齊、美國例外主義、版權拒絕——這些東西一直都在，只是以前沒有工具能把它們攤開來看。

現在有了。

Anthropic Fellows 做的事情，本質上就是把軟體工程幾十年前就想通的道理搬到 AI 安全領域：別從零開始審查一百萬行 code，專注在那 50 行 diff 上。DFC 不會告訴研究員「這個模型安全」或「這個模型危險」，但它做的事更基礎也更有殺傷力：把那片大海縮小成幾個值得翻開來看的石頭。

而那塊花生醬三明治，大概會成為 AI 安全領域最被引用的食譜。完整論文在 Anthropic 研究頁面上，有興趣的讀者可以深入啃。

先講最勁爆的發現

每個模型都有自己的「政治 DNA」

但等一下——不同架構的模型，怎麼比？

那個花生醬三明治的故事，還沒講完

這東西有多靠譜？

結語

相關文章

💬 留言