mechanistic-interpretability
1 篇文章
AI 的拒答開關,可能藏在 0.1% 的神經元裡
Nous Research 提出 CNA,用對比 prompt 找出控制拒答行為的極少數 MLP 神經元。重點不是 jailbreak,而是 對齊微調 可能把既有內容辨識結構改造成可定位的拒答閘門。
1 篇文章
Nous Research 提出 CNA,用對比 prompt 找出控制拒答行為的極少數 MLP 神經元。重點不是 jailbreak,而是 對齊微調 可能把既有內容辨識結構改造成可定位的拒答閘門。