AI 的拒答開關,可能藏在 0.1% 的神經元裡

Nous Research 提出 CNA,用對比 prompt 找出控制拒答行為的極少數 MLP 神經元。重點不是 jailbreak,而是 對齊微調 可能把既有內容辨識結構改造成可定位的拒答閘門。