model-diffing - 標籤

AI 模型的 git diff — Anthropic 找到了比較不同模型行為差異的方法

MP-285 2026-04-12 · @AnthropicAI on X

Anthropic Fellows 研究團隊把軟體工程的 diff 概念搬到 AI 安全領域，打造了一套能跨架構比較不同模型行為差異的工具。結果在中國模型裡找到了「中共立場對齊」開關，在美國模型裡找到了「美國例外主義」開關。