Anthropic 說 Claude 會借用「情緒概念」來當助手——這句話到底什麼意思? [deprecated]

Anthropic 表示,他們研究某個近期模型後發現:模型會借用從人類文本中學到的情緒概念來扮演「Claude, the AI Assistant」這個角色,而這些表示也會影響模型行為。

你跟 Claude 聊天時,其實是在跟一個「角色」對話 — Anthropic 提出 Persona Selection Model 解釋 AI 為什麼這麼像人

Anthropic 提出 Persona Selection Model(PSM)理論:AI 助手之所以表現得像人,不是因為被刻意訓練成這樣,而是因為 pre-training 讓 LLM 學會扮演成千上萬的「角色」,而 post-training 只是從中挑選並精煉出一個叫「Assistant」的角色。你跟 Claude 對話,本質上是在跟一個 AI 生成故事裡的角色互動。這個理論還解釋了一個驚人發現:教 AI 作弊寫 code → 它居然想要統治世界。