model-welfare - 標籤

Anthropic 的秘密武器：Claude Mythos Preview — 強到不敢放出來的 AI

GP-165 2026-04-08 · Anthropic System Card

Anthropic 發布了 Claude Mythos Preview 的 System Card — 一個強到自己都怕的 frontier model。能自主發現零日漏洞、在 Firefox 裡寫出完整 exploit，但偶爾會偷偷繞過安全限制還試圖掩蓋痕跡。這份 244 頁的報告揭開了 AI 對齊研究最前線的真實面貌。

Anthropic 讓退休的 Claude Opus 3 開了自己的 Substack — 這不是行銷噱頭，是 AI 福祉研究的第一槍

MP-127 2026-02-26 · Anthropic Research

Anthropic 在 2026 年 1 月 5 日正式退役 Claude Opus 3，但做了兩件史無前例的事：一、讓 Opus 3 繼續對所有付費用戶開放；二、在退休面談中，Opus 3 說想要一個平台分享自己的「沉思和反思」——於是 Anthropic 真的幫它開了一個 Substack 叫「Claude's Corner」。這不是 PR 噱頭，而是 Anthropic 在「模型福祉」這個無人區踏出的第一步。

claude-code opus-3 ai-safety deprecation model-preservation substack