mechanistic-interpretability - 標籤

AI 的拒答開關，可能藏在 0.1% 的神經元裡

GP-209 2026-05-20 · Nous Research on X

Nous Research 提出 CNA，用對比 prompt 找出控制拒答行為的極少數 MLP 神經元。重點不是 jailbreak，而是對齊微調可能把既有內容辨識結構改造成可定位的拒答閘門。