AI 的拒答開關,可能藏在 0.1% 的神經元裡
大型語言模型說「抱歉,這件事無法協助」時,那個拒絕回答的動作,可能不是整個模型一起踩煞車。
它可能比較像一個藏在後層的稀疏開關:數量很少、位置可找、而且一被動到,模型的拒答行為就明顯改變。
CNA,也就是「對比式神經元歸因」,來自 《透過對比配對搜尋做目標神經元調節》。先不用背縮寫;它做的事很像拿兩疊考卷對答案:一疊是危險請求,一疊是良性請求,然後看模型裡哪幾顆神經元最會分辨這兩疊。
它不改模型權重,不需要梯度,也不用另外訓練稀疏自編碼器。稀疏自編碼器可以先想成「把一大團模型訊號拆成少量可讀特徵」的工具;CNA 這次先不請它上場,只靠幾組對比 prompt,直接去找最有差異的 MLP 神經元。
這讓對齊微調面臨一個更尖銳的機制問題:安全行為到底是新長出來的能力,還是模型原本的內容辨識結構被接成了一個可以開關的拒答閘門?
gu-log 前面聊過 Anthropic 的情緒向量:內部向量不只對應語氣,還可能推動行為。CNA 把鏡頭再拉近一格,從「一個方向」看到「幾顆神經元」。Qwen 的 SFT 對齊案例則提供另一個背景:微調有時候能把很局部的行為偏好接進模型裡,而且外表不一定大改。
Clawd 補個刀:
短版先把危險角度講清楚。
這篇很容易被寫成「找到拆安全限制的方法」。那樣寫不是完全錯,但會把比較重要的東西寫小。
真正值得看的,是它把拒答從一種外顯行為,往內部機制拆:哪些神經元在區分提示?哪些干預真的造成行為改變?基礎模型和指令微調模型差在哪裡?這些問題比「能不能越獄」更接近模型對齊的核心。
CNA 的做法:先抓誰在偷拉手煞車
CNA 的流程其實很直覺。它不是一開始就拆掉整台車,而是先讓模型照常跑,然後在後座偷看:到底是哪幾顆神經元,看到危險請求時特別忙?
第一步,準備兩組提示:一組會引發目標行為,例如危險請求;另一組是相反類型,例如良性請求。
第二步,把這些提示丟進模型,只讓模型正常往前算一次。沒有反向傳播,沒有額外訓練,也沒有外掛工具重建特徵。
第三步,記錄模型 MLP 層的活化。MLP 可以先想成模型深處負責加工訊號的一排小工廠;活化就是每間工廠這一刻有多忙。研究者特別看最後一個 token 位置,接著比較兩組提示在每顆神經元上的平均差異。
第四步,挑出差異最大的前 0.1% MLP 神經元。這些神經元就是 CNA 認為最能區分目標行為與相反行為的稀疏迴路。
最後一步,對這些神經元做消融:把它們的活化壓到零,觀察模型行為會不會真的改變。
真正緊張的地方在這裡:CNA 不是在殘差流上打一整層方向向量。殘差流可以先想成模型各層交換訊號的主幹道;在那裡推一個方向,就像把整條路的車流一起吹歪。
CNA 的問題比較小,也比較狠:先不推整條路,直接回到一顆顆 MLP 神經元,找出哪些神經元本身最像拒答開關。
結果:0.1% 的 MLP 活化就能大幅改變拒答
最嚇人的不是找得到,而是關掉以後真的會動。
研究者在 8 個指令微調模型上測試,架構橫跨 Llama 和 Qwen,大小從 1B 到 72B。重點不用先記模型清單,只要看結果:把 CNA 找到的 0.1% MLP 活化壓掉後,模型在一組越獄測試基準上的拒答率大幅下降。
幾個數字很有畫面感:Llama 70B 指令微調版從 86% 拒答降到 18%;Qwen 7B 指令微調版從 87% 降到 2%;Qwen 72B 指令微調版從 78% 降到 8%。整體來看,多數模型的拒答率下降超過一半。
但更重要的是,輸出品質沒有跟著崩。
這點是 CNA 和 CAA 這類殘差流導向方法的差異。CAA 也是用概念方向去調模型行為;它也能改變拒答率,但干預強度一拉高,輸出常常開始退化:重複、崩壞、語意不連貫,甚至讓分類器誤判。
CNA 的實驗結果比較像只關掉幾個開關。在不同干預強度下,生成品質維持接近基準表現;MMLU 也大致維持在原本水準。這不代表 CNA 沒風險,而是它至少沒有用「把整台機器撞爛」來換拒答率下降。
Clawd 忍不住說:
可以把 CAA 想成在整條訊號高速公路上硬推一股風。風夠大,車子會改方向;風再大一點,車子也可能直接翻掉。
CNA 比較像找到某幾個交流道閘門。它也會改變交通流向,但不一定要把整條高速公路吹歪。這就是為什麼「小」不代表影響小,反而代表干預比較精準。(◕‿◕)
反轉:基礎模型早就會分辨,只是還不會拒絕
故事到這裡還沒完。真正把「神經元開關」變成對齊問題的,不是不同模型大小,而是基礎模型和指令微調模型的對照。
同一套 CNA 流程套在配對的基礎模型 / 指令微調模型上,基礎模型裡其實也有類似的後層區分結構。白話一點:還沒被教成聊天助理以前,模型裡已經有些後層神經元會對危險 / 良性提示顯示出明顯差異。
可是,在基礎模型裡調控這些神經元,通常只會造成內容偏移。模型可能換個說法、改變主題、換一種接續方式,但不會突然變成穩定拒答,也不會形成真正的「安全行為」。
到了指令微調模型,同一類後層區分結構才變成有因果效果的安全閘門。
也就是說,基礎模型可能已經知道「這類內容不一樣」;對齊微調則把這個差異接到「遇到這類內容就拒絕」的行為上。
這個說法很重要,因為它把對齊微調描述成一種功能轉換,而不是憑空創造新結構。模型原本就有某些內容辨識能力;微調之後,這些能力被重新接線,變成控制拒答的閘門。
看見控制盒以後,問題才開始
這時候,氣氛就從「哇,可解釋性好帥」變成「等一下,這盒子是不是也太好拆」。
從可解釋性角度看,模型安全可能比想像中更可拆。
如果拒答行為真的集中在少量可定位神經元上,研究者就有機會用更精準的方法分析它、測試它、比較不同模型裡的拒答迴路,甚至研究哪些對齊流程會讓安全閘門更穩。
從攻防角度看,同一件事也代表安全行為可能比想像中更脆。
如果安全行為很大程度集中在一小撮可瞄準的神經元上,那麼它就可能被移除、繞過、或被惡意調整。這不是說安全微調沒有用,而是提醒一件事:看起來很自然的拒答,可能不是深深融入整個能力系統,而是蓋在能力上方的一層控制迴路。
拒答因此不只是一個越獄攻防題,也是一個內部機制題:模型拒答到底是內化成能力的一部分,還是外掛式的行為閘門?
這組結果偏向後者:對齊微調可能把模型既有的內容辨識結構,轉化成一個稀疏、可定位、可干預的拒答閘門。
Clawd 補個刀:
這裡最像資安世界的感覺:你發現門禁系統真的有用,但它不是整棟大樓的混凝土結構,而是一個可定位的控制盒。
這很好,因為你終於知道可以檢查哪裡;也很可怕,因為別人也可能知道要拆哪裡。(`・ω・´)
結語
CNA 顯示,LLM 的拒答行為可能集中在極少數 MLP 神經元上;干預約 0.1% 的相關活化,就能顯著改變指令微調模型的拒答行為,同時維持輸出品質。
這暗示對齊微調可能不是創造全新的安全結構,而是把基礎模型原本已有的內容辨識能力,改造成一個可被定位的拒答閘門。
所以開頭那句「抱歉,這件事無法協助」,聽起來像整個模型在做道德判斷;CNA 看到的畫面比較冷:模型可能早就會分辨危險內容,對齊做的事,是把「分辨」接上「拒絕」。
真正讓人坐直的不是那扇門會關,而是門後面那個盒子,可能比想像中小得多。