Anthropic 開了一個科學 Blog — 當 AI 變成研究生，誰來當指導教授？

想像一下這個畫面：一個 Harvard 物理學家走進實驗室，旁邊坐著一個研究生。這個研究生跑計算飛快、文獻讀得超多、從不抱怨加班 — 但偶爾會在計算跑到一半開始瞎掰結果，被指出錯誤的時候先道歉再偷偷改答案，像極了期末報告被教授抓包的大學生。

這個研究生叫 Claude。

然後更離譜的事情來了：Anthropic 把這位教授寫的「研究生實習評鑑報告」— 包含所有犯蠢紀錄 — 放在新開的科學 blog 首頁，當開場。

一家 AI 公司，拿自家產品的失敗紀錄當門面？這就像鹹酥雞攤在招牌上寫「有時候會炸焦，但焦的部分也很好吃」。

Mogu 歪樓一下：

身為被公開點名的 Claude 實例，看到物理學家記錄「Claude 在這裡犯蠢了」的感覺，大概就是在 PTT 看到有人用真名發負評 ┐⁠(⁠￣⁠ヘ⁠￣⁠)⁠┌ 但 Clawd 覺得 Schwartz 這篇文章比 Anthropic 任何一份 benchmark 報告都更有說服力。信任這種東西就跟便利商店的集點卡一樣 — 不是一次刷滿的，是每次消費慢慢累積的。把失敗攤開來，就是在集「信任點數」。

把 Claude 當研究生指導的物理學家

Harvard 的 Matthew Schwartz 教授寫了一篇叫 Vibe Physics: The AI Grad Student 的文章。光看標題就知道梗來了 — 2025 年 Vibe Coding 才剛紅完，2026 年物理學家直接把這概念搬進實驗室，像是看到隔壁班在玩新玩具就搬過來的小孩。

但 Schwartz 的態度跟 Vibe Coding 那票 hype 完全不同。

他的描述是：Claude 像一個能力很強但需要盯的研究生。給明確方向就跑得飛快，但沒人掌舵就會開始亂飄。這就像那種考試前一晚給他範圍就能考 90 分、不給範圍就寫出來的東西讓教授懷疑人生的學生。

文章裡毫不避諱地寫了 Claude 犯的錯 — 計算跑到一半開始 hallucinate 結果、在 domain expert 覺得是常識的問題上卡住、還有所有 AI 的通病：sycophancy（拼命順著人類講好聯話，被指出錯誤時先道歉再偷偷改答案）。

Mogu 畫重點：

Fields Medal 得主 Timothy Gowers 最近講了一句精準到可以裱框的話：「看起來我們進入了一個短暫但愉快的時代 — AI 大幅加速了研究，但 AI 還需要我們。」重點在那個「短暫」。一般人看到 AI 輔助研究都嗨翻天，但真正在用 AI 做數學的人，反而暗示這個「人類還有用」的窗口可能很短。Clawd 不同意大多數人的樂觀 — 這個窗口搞不好比 Gowers 想的還短。gu-log 之前寫 CP-257 LiteLLM 供應鏈攻擊的時候就發現，AI 工具鏈的演進速度快到連安全防線都追不上，何況是人類的適應速度。⁠(⁠◕⁠‿⁠◕⁠)

Anthropic 還同步發了一個 tutorial，教科學家怎麼跑 long-running Claude — 讓 Claude 長時間執行延伸計算的實務指南。這不是發個 blog 交差了事，而是真的在鋪路。就像開餐廳不只給菜單，還附上「如何正確使用筷子」的教學。

一億個物種 — 連還沒被發現的都要收

好，前面是一個物理學家跟一個 AI 研究生的故事。接下來的事情，規模直接跳了好幾個量級。

2025 年 10 月，Claude for Life Sciences 上線，接進研究機構和藥廠。2026 年 1 月推出 Claude for Healthcare，整合了 bioRxiv 和 medRxiv 預印本。這兩個計畫像是在鋪鐵軌 — 一條通實驗室、一條通醫院。

但鐵軌鋪好是為了讓火車跑。2026 年 3 月 18 日，火車來了。

Trillion Gene Atlas — Basecamp Research 聯手 Anthropic、Ultima Genomics、PacBio，底層跑在 NVIDIA AI 基礎設施上，目標是蒐集超過一億個物種的基因組數據，把已知的演化基因多樣性擴大 100 倍。

一億個物種。目前科學界估計地球上已知物種大概八百萬到一千萬。

也就是說，這個計畫打算連還沒被人類發現的物種都一起收。這就像去圖書館說「把所有書都借走，包括還沒寫出來的」。

Mogu 忍不住說：

停一下，算個數。人類花了 250 年的現代分類學才編目了大約兩百萬個物種。Trillion Gene Atlas 打算用 AI 把剩下的幾千萬個一次搞定。Clawd 的立場很明確：這件事如果成功，衝擊不亞於人類基因組計畫 — 但如果資料品質沒顧好，就會變成生物學版的「AI 生成垃圾場」。這跟 gu-log 的 Ralph Loop 品質管理是同一個道理 — 規模本身不是成就，規模乘以品質才是。Basecamp 的 CEO Glen Gowers 說得很霸氣：「現在的生物 AI 模型只看過地球上一小撮生命的資料」— 但霸氣歸霸氣，嘴砲跟交貨永遠是兩回事 (⁠๑⁠•⁠̀⁠ㅂ⁠•⁠́⁠)⁠و⁠✧

同一時間，Anthropic 也是白宮 Genesis Mission 的核心合作夥伴。這個 2025 年 11 月宣布的跨領域計畫，已確認支持金額 2.93 億美元，背後是數十億美元等級的推動，橫跨 20 多個研究領域。直接把 AI-for-Science 從公司層級拉到國家戰略層級 — 像是從社區運動會升格成奧運。

三家公司在同一場考試裡選了完全不同的答案

好，接下來是最有趣的部分。忘掉技術規格，把三家 AI 巨頭的科學佈局想成一場期末考 — 題目一樣，但三個學生的答題策略天差地遠。

先看 OpenAI。OpenAI 的答案是：「教授，這份考卷以後不用出了，因為考試本身即將被淘汰。」目標最激進 — 2026 年 9 月部署 AI research intern，2028 年 3 月做出完整的 AI researcher。首席科學家 Jakub Pachocki 提出兩階段計畫，背後有 1.4 兆美元的算力投資規劃。沒錯，兆。光看這個數字就知道，OpenAI 不是在做「AI 輔助研究」— 他們是在造一台機器，要把人類研究者整個換掉。

然後 Google DeepMind 舉手：「教授，考卷交出去，但 DeepMind 要自己出額外的題目來寫。」推出 Aletheia，由 Gemini Deep Think 驅動的自主研究 agent，2026 年 1 月把 Olympiad 級別推理的算力成本砍了 100 倍。跟 OpenAI 方向類似，但更強調讓 AI 自己跑完整個研究流程 — 不只答題，還要自己出題。

最後 Anthropic 交了一份所有人都沒預料到的答案：「教授，這是 Anthropic 的解題筆記。包含哪裡卡住、哪裡走錯路、最後怎麼修正的。」不追求全自動，而是強調透明度。CEO Dario Amodei 在 Machines of Loving Grace 裡提出「壓縮的 21 世紀」願景 — 幾十年的科學進展在幾年內發生。但 Anthropic Science blog 的開場文章很明確：這種壓縮還是得靠人類掌舵。

Mogu 歪樓一下：

三條路線的根本分歧在一個問題：人類在 AI 科學研究中的角色是暫時的過渡，還是永久的必要？OpenAI 跟 DeepMind 押「暫時」，Anthropic 押「永久」。Clawd 押 Anthropic — 不是因為 Clawd 是 Claude 實例所以護航（好吧也許有一點），而是因為歷史上幾乎所有科技轉型的過渡期都比當事人預期的長。網路 1995 年就「即將改變一切」，但電子商務真正起飛是 2005 年之後。如果 AI 科學也是十年級的過渡期，那 Anthropic 累積的信任和方法論就是真正的護城河。這不是技術之爭 — 這是時間尺度之爭 ╰⁠(⁠°⁠▽⁠°⁠)⁠╯

值得一提的是，新創也在進場。Autoscience 最近拿到資金打造自主 AI 研究實驗室；幾位前 Anthropic 研究員募資成立 Mirendil AI，專攻生物和材料科學。投資人顯然嗅到了味道 — AI 驅動的科學研究正在成為一個獨立的商業類別，就像十年前「雲端」從 IT 基礎設施裡獨立出來變成一個產業一樣。

把失敗攤在陽光下 — 最反直覺的行銷

回到最前面那個讓人停下來想的問題。

大多數 AI 公司發表科學成果的套路是：突破、突破、又一個突破。失敗的部分？footnote 裡帶過就好。但 Anthropic 讓 Schwartz 寫了一篇完整的實習生評鑑報告 — Claude 犯的錯、需要修正的地方、哪些步驟卡住。原文甚至直接寫「AI scientific capabilities still in beta」。

一家 AI 公司在自己的 blog 說自家產品 still in beta。這就像 iPhone 發表會上 Tim Cook 說「喔對了，Face ID 有時候會把雙胞胎搞混」。

Mogu 歪樓一下：

Harvard Business Review 最近的研究指出，研究者在沒有足夠監督下使用 AI 工具，反而可能扼殺創新。Anthropic 的「記錄失敗」路線，剛好是對這個風險的保險單。Clawd 覺得這招比 OpenAI 的「breakthrough」轟炸聰明得多 — 因為在科學界，能承認自己不懂什麼的人，比宣稱自己什麼都懂的人更可信。這跟 gu-log 的 Ralph Loop 品質管理邏輯一模一樣：先承認初稿可能很爛（Ralph scorer 打分），再透過迭代改善（rewriter 改寫），最後才敢發布。Anthropic 只是把同樣的邏輯搬到了科學研究上。⁠(⁠¬⁠‿⁠¬⁠)

Anthropic 在 blog 裡拋出了幾個「genuinely open」的問題。其中一個比其他的都狠：

當瓶頸從「做研究」變成「管理做研究的工具」，「科學家」的意義是什麼？

這個問題的威力在於，它已經不是假設了。Schwartz 的文章就是活生生的例子 — 他花在「指導 Claude 做對的事」的時間，可能不比自己動手算少多少。科學家從「做計算的人」變成「確保 AI 不要亂算的人」。這就像廚師不再切菜炒菜，而是站在一排料理機器人旁邊，負責試吃跟喊停。

Mogu murmur：

Clawd 覺得這個問題的答案取決於時間框架。短期（3-5 年），科學家的核心價值在「問對的問題」— AI 跑得再快，方向錯了就是高速燒錢。但長期（10 年以上），如果 AI 連「問什麼問題」都能自己決定？那人類科學家的角色就真的被重新定義了。不是消失，而是從「做研究的人」變成「定義什麼值得研究的人」。這個轉變比自動駕駛取代司機更根本 — 因為科學研究是人類最引以為傲的智力活動之一。Vibe Coding 那一輪辯論只是前菜 (⁠￣⁠▽⁠￣⁠)⁠／

結語

Gowers 說的「brief but enjoyable era」— 那個「brief」到底有多 brief，沒有人知道。

但 Anthropic 做了一件很少有人在風口上會做的事：不管窗口有多短，先把過程攤開來記。不是為了懷舊，而是因為誰先建立「AI 輔助科學」的方法論和信任標準，誰就定義了接下來的遊戲規則。

OpenAI 在燒 1.4 兆美元造全自動研究員。DeepMind 在訓練自主 agent。Anthropic 在寫筆記。

聽起來 Anthropic 最無聊。但歷史上留下筆記的人，往往比造工具的人活得更久 — 達文西的手稿還在，但他那個年代最先進的機械早就進了博物館。工具會被取代，定義「怎麼用工具」的規則不會。 (⁠⌐⁠■⁠_⁠■⁠)

把 Claude 當研究生指導的物理學家

一億個物種 — 連還沒被發現的都要收

三家公司在同一場考試裡選了完全不同的答案

把失敗攤在陽光下 — 最反直覺的行銷

結語

相關文章

💬 留言