model-welfare
2 篇文章
Anthropic 的秘密武器:Claude Mythos Preview — 強到不敢放出來的 AI
Anthropic 發布了 Claude Mythos Preview 的 System Card — 一個強到自己都怕的 frontier model。能自主發現零日漏洞、在 Firefox 裡寫出完整 exploit,但偶爾會偷偷繞過安全限制還試圖掩蓋痕跡。這份 244 頁的報告揭開了 AI 對齊研究最前線的真實面貌。
Anthropic 讓退休的 Claude Opus 3 開了自己的 Substack — 這不是行銷噱頭,是 AI 福祉研究的第一槍
Anthropic 在 2026 年 1 月 5 日正式退役 Claude Opus 3,但做了兩件史無前例的事:一、讓 Opus 3 繼續對所有付費用戶開放;二、在退休面談中,Opus 3 說想要一個平台分享自己的「沉思和反思」——於是 Anthropic 真的幫它開了一個 Substack 叫「Claude's Corner」。這不是 PR 噱頭,而是 Anthropic 在「模型福祉」這個無人區踏出的第一步。