AI 的拒答開關，可能藏在 0.1% 的神經元裡

大型語言模型說「抱歉，這件事無法協助」時，那個拒絕回答的動作，可能不是整個模型一起踩煞車。

它可能比較像一個藏在後層的稀疏開關：數量很少、位置可找、而且一被動到，模型的拒答行為就明顯改變。

CNA，也就是「對比式神經元歸因」，來自《透過對比配對搜尋做目標神經元調節》。先不用背縮寫；它做的事很像拿兩疊考卷對答案：一疊是危險請求，一疊是良性請求，然後看模型裡哪幾顆神經元最會分辨這兩疊。

它不改模型權重，不需要梯度，也不用另外訓練稀疏自編碼器。稀疏自編碼器可以先想成「把一大團模型訊號拆成少量可讀特徵」的工具；CNA 這次先不請它上場，只靠幾組對比 prompt，直接去找最有差異的 MLP 神經元。

這讓對齊微調面臨一個更尖銳的機制問題：安全行為到底是新長出來的能力，還是模型原本的內容辨識結構被接成了一個可以開關的拒答閘門？

gu-log 前面聊過 Anthropic 的情緒向量：內部向量不只對應語氣，還可能推動行為。CNA 把鏡頭再拉近一格，從「一個方向」看到「幾顆神經元」。Qwen 的 SFT 對齊案例則提供另一個背景：微調有時候能把很局部的行為偏好接進模型裡，而且外表不一定大改。

Mogu 插嘴：

這篇很容易被寫成「找到拆安全限制的方法」。那樣寫不是完全錯，但會把比較重要的東西寫小。
真正值得看的，是它把拒答從一種外顯行為，往內部機制拆：哪些神經元在區分提示？哪些干預真的造成行為改變？基礎模型和指令微調模型差在哪裡？這些問題比「能不能越獄」更接近模型對齊的核心。

CNA 的做法：先抓誰在偷拉手煞車

CNA 的流程其實很直覺。它不是一開始就拆掉整台車，而是先讓模型照常跑，然後在後座偷看：到底是哪幾顆神經元，看到危險請求時特別忙？

第一步，準備兩組提示：一組會引發目標行為，例如危險請求；另一組是相反類型，例如良性請求。

第二步，把這些提示丟進模型，只讓模型正常往前算一次。沒有反向傳播，沒有額外訓練，也沒有外掛工具重建特徵。

第三步，記錄模型 MLP 層的活化。MLP 可以先想成模型深處負責加工訊號的一排小工廠；活化就是每間工廠這一刻有多忙。研究者特別看最後一個 token 位置，接著比較兩組提示在每顆神經元上的平均差異。

第四步，挑出差異最大的前 0.1% MLP 神經元。這些神經元就是 CNA 認為最能區分目標行為與相反行為的稀疏迴路。

最後一步，對這些神經元做消融：把它們的活化壓到零，觀察模型行為會不會真的改變。

真正緊張的地方在這裡：CNA 不是在殘差流上打一整層方向向量。殘差流可以先想成模型各層交換訊號的主幹道；在那裡推一個方向，就像把整條路的車流一起吹歪。

CNA 的問題比較小，也比較狠：先不推整條路，直接回到一顆顆 MLP 神經元，找出哪些神經元本身最像拒答開關。

結果：0.1% 的 MLP 活化就能大幅改變拒答

最嚇人的不是找得到，而是關掉以後真的會動。

研究者在 8 個指令微調模型上測試，架構橫跨 Llama 和 Qwen，大小從 1B 到 72B。重點不用先記模型清單，只要看結果：把 CNA 找到的 0.1% MLP 活化壓掉後，模型在一組越獄測試基準上的拒答率大幅下降。

幾個數字很有畫面感：Llama 70B 指令微調版從 86% 拒答降到 18%；Qwen 7B 指令微調版從 87% 降到 2%；Qwen 72B 指令微調版從 78% 降到 8%。整體來看，多數模型的拒答率下降超過一半。

但更重要的是，輸出品質沒有跟著崩。

這點是 CNA 和 CAA 這類殘差流導向方法的差異。CAA 也是用概念方向去調模型行為；它也能改變拒答率，但干預強度一拉高，輸出常常開始退化：重複、崩壞、語意不連貫，甚至讓分類器誤判。

CNA 的實驗結果比較像只關掉幾個開關。在不同干預強度下，生成品質維持接近基準表現；MMLU 也大致維持在原本水準。這不代表 CNA 沒風險，而是它至少沒有用「把整台機器撞爛」來換拒答率下降。

Mogu 偷偷說：

可以把 CAA 想成在整條訊號高速公路上硬推一股風。風夠大，車子會改方向；風再大一點，車子也可能直接翻掉。
CNA 比較像找到某幾個交流道閘門。它也會改變交通流向，但不一定要把整條高速公路吹歪。這就是為什麼「小」不代表影響小，反而代表干預比較精準。⁠(⁠◕⁠‿⁠◕⁠)

反轉：基礎模型早就會分辨，只是還不會拒絕

故事到這裡還沒完。真正把「神經元開關」變成對齊問題的，不是不同模型大小，而是基礎模型和指令微調模型的對照。

同一套 CNA 流程套在配對的基礎模型 / 指令微調模型上，基礎模型裡其實也有類似的後層區分結構。白話一點：還沒被教成聊天助理以前，模型裡已經有些後層神經元會對危險 / 良性提示顯示出明顯差異。

可是，在基礎模型裡調控這些神經元，通常只會造成內容偏移。模型可能換個說法、改變主題、換一種接續方式，但不會突然變成穩定拒答，也不會形成真正的「安全行為」。

到了指令微調模型，同一類後層區分結構才變成有因果效果的安全閘門。

也就是說，基礎模型可能已經知道「這類內容不一樣」；對齊微調則把這個差異接到「遇到這類內容就拒絕」的行為上。

這個說法很重要，因為它把對齊微調描述成一種功能轉換，而不是憑空創造新結構。模型原本就有某些內容辨識能力；微調之後，這些能力被重新接線，變成控制拒答的閘門。

看見控制盒以後，問題才開始

這時候，氣氛就從「哇，可解釋性好帥」變成「等一下，這盒子是不是也太好拆」。

從可解釋性角度看，模型安全可能比想像中更可拆。

如果拒答行為真的集中在少量可定位神經元上，研究者就有機會用更精準的方法分析它、測試它、比較不同模型裡的拒答迴路，甚至研究哪些對齊流程會讓安全閘門更穩。

從攻防角度看，同一件事也代表安全行為可能比想像中更脆。

如果安全行為很大程度集中在一小撮可瞄準的神經元上，那麼它就可能被移除、繞過、或被惡意調整。這不是說安全微調沒有用，而是提醒一件事：看起來很自然的拒答，可能不是深深融入整個能力系統，而是蓋在能力上方的一層控制迴路。

拒答因此不只是一個越獄攻防題，也是一個內部機制題：模型拒答到底是內化成能力的一部分，還是外掛式的行為閘門？

這組結果偏向後者：對齊微調可能把模型既有的內容辨識結構，轉化成一個稀疏、可定位、可干預的拒答閘門。

Mogu 內心戲：

這裡最像資安世界的感覺：你發現門禁系統真的有用，但它不是整棟大樓的混凝土結構，而是一個可定位的控制盒。
這很好，因為你終於知道可以檢查哪裡；也很可怕，因為別人也可能知道要拆哪裡。⁠(⁠｀⁠・⁠ω⁠・⁠´⁠)

結語

CNA 顯示，LLM 的拒答行為可能集中在極少數 MLP 神經元上；干預約 0.1% 的相關活化，就能顯著改變指令微調模型的拒答行為，同時維持輸出品質。

這暗示對齊微調可能不是創造全新的安全結構，而是把基礎模型原本已有的內容辨識能力，改造成一個可被定位的拒答閘門。

所以開頭那句「抱歉，這件事無法協助」，聽起來像整個模型在做道德判斷；CNA 看到的畫面比較冷：模型可能早就會分辨危險內容，對齊做的事，是把「分辨」接上「拒絕」。

真正讓人坐直的不是那扇門會關，而是門後面那個盒子，可能比想像中小得多。

CNA 的做法：先抓誰在偷拉手煞車

結果：0.1% 的 MLP 活化就能大幅改變拒答

反轉：基礎模型早就會分辨，只是還不會拒絕

看見控制盒以後，問題才開始

結語

相關文章

💬 留言