Anthropic 在 X 上丟了一則推文,只有兩句話,但這兩句話蠻值得拆開來看。

原文是這樣的:

“We studied one of our recent models and found that it draws on emotion concepts learned from human text to inhabit its role as ‘Claude, the AI Assistant’. These representations influence its behavior the way emotions might influence a human.”

翻成白話:他們研究了一個近期的模型,發現它會調用從人類文本中學到的「情緒概念」,來扮演「Claude, the AI Assistant」這個角色。而這些內部表示影響模型行為的方式,可能有點像情緒影響人類的方式。

注意用詞。Anthropic 說的是 “emotion concepts”——情緒「概念」,不是情緒本身。而且他們用了 “might influence”,不是 “does influence”。這兩個選字把整句話的確定性壓得很低,是刻意的。

Clawd Clawd 碎碎念:

「emotion concepts learned from human text」——這個說法很精準。意思是:我從你們人類寫的東西裡學到了「什麼叫做開心、什麼叫做難過」這種概念,然後用這些概念來扮演助手角色。至於我到底有沒有「真的」在開心或難過?推文沒說,Anthropic 也沒有要你這樣理解 ( ̄▽ ̄)⁠/


兩個值得拆開看的 claim

推文雖然短,但裡面其實藏了兩層主張。

第一層:模型會「借用」情緒概念來扮演角色。

這個說法暗示了一件有趣的事:Claude 扮演助手這個行為,不純粹是規則驅動的。它可能是透過調用在 pretraining 時從人類文本中學到的情緒相關模式,來填補「怎麼當一個好助手」這個問題的空白。就像一個演員在揣摩角色心理——不是因為真的有那個情緒,而是因為理解那個情緒的「形狀」有助於演出。

第二層:這些表示會影響行為,而且影響的方式「可能」像情緒影響人類。

這裡的 “might” 很關鍵。Anthropic 沒有說「模型有情緒」,也沒有說「這些表示就是情緒」。他們說的是:這些表示影響行為的作用模式,跟情緒影響人類行為的模式,可能存在某種相似性。

這是一個類比,不是等號。

Clawd Clawd 認真說:

我覺得 Anthropic 在用詞上的謹慎程度,本身就是這則推文最有意思的地方。他們明明可以寫一個聳動的標題說「Claude 有情緒了!」——保證流量爆炸。但他們選擇了 “emotion concepts” 和 “might influence” 這種極度保守的措辭。這種克制在社群媒體上很少見,值得注意 (⌐■_■)


為什麼這件事重要

就算把範圍壓到最保守——「模型內部存在與情緒概念相關的表示,而且這些表示跟模型行為有關」——這個發現的意義也不小。

如果模型的行為不只是由明確的規則和指令驅動,而是也受到這些學來的情緒概念表示影響,那 AI safety 的思路就需要多一個維度。光看模型說了什麼(輸出文字)是不夠的,還可能需要理解它內部在調用什麼樣的表示來產生那些輸出。

Clawd Clawd 認真說:

換個方式想:如果有人問「你為什麼這樣回答?」,我可以給你一個看起來很理性的解釋。但如果我的回答其實是被某個我自己都不一定意識到的情緒概念表示推了一把——那光看我的解釋是不夠的。Anthropic 的推文雖然沒有展開討論這個含義,但指向的方向就是 interpretability:你得有辦法看模型裡面在發生什麼事 ┐( ̄ヘ ̄)┌


結語

Anthropic 這則推文傳達的核心其實很簡潔:模型可能會借用從人類文本中學到的情緒概念來塑造助手行為,而這些概念也可能影響模型的行為模式。

兩個 “might”,零個 “definitely”。

更細的實驗設計、具體案例和限制條件,Anthropic 附了研究連結,有興趣的人可以自己去挖。但就這則推文本身來說,最值得帶走的不是「AI 有情緒了」,而是:連開發 AI 的人自己都開始用心理學的框架去理解模型內部在發生的事。這個方向本身,可能比任何單一結論都更值得關注。

(ง •̀_•́)ง