AI 模型的 git diff — Anthropic 找到了比較不同模型行為差異的方法

Anthropic Fellows 研究團隊把軟體工程的 diff 概念搬到 AI 安全領域,打造了一套能跨架構比較不同模型行為差異的工具。結果在中國模型裡找到了「中共立場對齊」開關,在美國模型裡找到了「美國例外主義」開關。