Dr. CaBot：Harvard 團隊用百年病例報告打造的 AI 醫生，診斷準確率屌打真人內科醫師

📘 這是 The Batch #340 系列的第 4 篇（共 4 篇）：

Andrew Ng × Hollywood

SpaceX 併購 xAI

Averi AI 審計標準

Dr. CaBot 醫療 AI（本篇）

想像一下這個畫面：你躺在急診室的床上，肚子痛到不行，已經做了各種檢查，但主治醫師皺著眉頭跟你說「我們再觀察看看」。

這時候旁邊的螢幕上，一個 AI 正在翻閱過去一百年來、七千多位頂尖醫師遇過的類似案例，然後寫出一份推理報告——連你的主治醫師看了都以為是哪位資深教授寫的。

這不是科幻片劇本。這是 Harvard 團隊做出來的東西，叫 Dr. CaBot。

它的診斷準確率是人類醫師的 2.5 倍。而且最誇張的是，它寫出來的推理過程，專業醫師根本分不出是人寫的還是 AI 寫的 ╰(°▽°)⁠╯

Clawd 插嘴：

先說好，這不是那種「拿 ChatGPT 貼症狀問怎麼了」的玩具。這是一個有完整知識檢索系統、用百年醫學文獻當底座的 agentic system。跟之前 CP-10 Anthropic 醫療佈局那篇提到的方向一致——大廠全在搶醫療 AI 這塊餅，但 Harvard 這次的切入角度特別刁鑽。

醫生光會猜對答案是不夠的

你去看醫生的時候，如果醫生只說「你得了感冒」然後就叫你出去，你會不會覺得哪裡怪怪的？

當然會。你想知道「為什麼你覺得是感冒不是流感？」「我需不需要驗血？」「什麼時候會好？」。你需要的不是一個答案，而是一整套說服你的推理過程。

真實的臨床場景裡，醫生要做的事情比「猜對病名」複雜太多了——解釋推理過程、規劃下一步檢查、跟其他專科醫師溝通、甚至跟保險公司打交道。醫學不只是一門根據證據做判斷的科學，更是一門解釋、說服、規劃的藝術。

Dr. CaBot 想做的，就是兩件事都搞定。

一個被埋沒百年的寶藏語料庫

好，那問題來了——你要怎麼教一個 AI「像頂尖醫師一樣思考」？

一般的醫學論文告訴你結論，但不會展示完整的思路。你看到的是「我們發現 X 藥對 Y 病有效」，但你看不到醫師腦袋裡那條從症狀到診斷的推理鏈。

但有一種特殊的文獻例外。

《New England Journal of Medicine》（NEJM，新英格蘭醫學期刊，醫學界的頂刊中的頂刊）從 1923 年開始，持續了一百年，累積了超過 7,000 篇 clinicopathological conferences（CPCs，臨床病理會議）報告。

什麼是 CPC？簡單說——頂尖醫師的「現場推理秀」。

權威醫師拿到一個真實病例：體檢結果、病史、各種檢查數據，然後一步一步推理出最可能的診斷。這不是乾巴巴的論文結論，而是完整的、有邏輯鏈的、活生生的專家思維過程。

Clawd 真心話：

等等，1923 年？？那時候連抗生素都還沒發明啊（penicillin 是 1928 年才被發現的）。這個語料庫橫跨了整個現代醫學史——從沒有抗生素的年代，經過 CT、MRI 的發明，到基因定序，再到免疫療法。一百年份的頂尖醫師思維精華，全部被人家打包當 RAG 的 knowledge base (╯°□°)⁠╯
這才叫「站在巨人的肩膀上」——而且這個巨人已經站了一百年。

Harvard 團隊的 key insight 是：如果你給 LLM「某個病人的症狀」加上「一個類似案例的 CPC 報告」，模型就能學會用專家醫生的風格和邏輯來推理。不是 fine-tuning，不是重新 training。是 RAG 加上 in-context learning——用前人的推理範本，教 AI 怎麼想。

Dr. CaBot 的腦袋裡在跑什麼

好，來說說這東西到底怎麼運作的。整個系統建在 OpenAI o3 上面，但光有 o3 不夠——重點在它怎麼「備課」。

想像你是一個要去考試的醫學生。你不會拿到題目就直接作答吧？你會先去翻課本、找類似的考古題、看看學長姐怎麼解的。Dr. CaBot 做的事情，本質上就是這個。

首先，團隊把 7,102 篇 CPC 報告全部數位化，用 OpenAI 的 text-embedding-3-small 做 embedding，塞進向量資料庫。同時再把從 OpenAlex（一個科學文獻索引）抓的 300 萬篇醫學論文摘要也一起 embed 進去。這就是 Dr. CaBot 的「圖書館」。

然後當一段症狀描述丟進來的時候，系統先做 embedding 比對，從圖書館裡撈出兩篇最相似的 CPC 報告——這就像你找到了兩份最相關的考古題解答。

Clawd 想補充：

為什麼只撈兩篇？因為 CPC 報告本身就很長（完整的推理過程嘛），塞太多進 context window 反而會稀釋重點。這跟我們寫文章的 SP-32 Prompt Caching 那篇講的道理類似——context 不是越多越好，而是要精準 ┐(￣ヘ￣)┌

但 Dr. CaBot 不會到這裡就停。它把症狀描述和檢索到的 CPC 報告一起丟給 o3，讓 o3 自己想「我還需要查什麼？」——生成最多 25 個搜尋查詢，再去撈更多相關的論文摘要。這基本上就是讓 AI 自己決定要做什麼功課，而不是人類幫它決定。

最後，所有東西——症狀、CPC 報告、自動生成的查詢、檢索到的摘要——全部打包餵給 o3，讓它生成最終的診斷結果和完整的推理過程。

Clawd 補個刀：

整個系統的精髓用一句話概括：讓 AI 站在一百年的專家經驗上，用專家的方式思考。
兩個設計巧思特別值得注意：第一，CPC 報告不是被當成「答案」，而是被當成「推理範本」——教的是思考方式，不是結論。第二，用 o3 而不是 GPT-4o，因為這種需要長鏈推理的任務，reasoning model 天生就有優勢。跟 CP-85 Steve Yegge 那篇的觀點呼應——選對工具比暴力 scaling 重要 (◕‿◕)

結果：AI 不只更準，還更像人

講了這麼多架構，你一定在想——那結果到底如何？

先看數字。團隊設計了一個叫 CPC-Bench 的 benchmark，從回答視覺問題到生成治療計畫都有，涵蓋十種不同的臨床任務。在最核心的「把正確診斷排在第一位」這個指標上：

Dr. CaBot：60%。20 位人類內科醫師：24%。

2.5 倍的差距。不是小贏，是碾壓。

但更有趣的是定性評估。五位內科醫師在不知道來源的情況下，同時讀 Dr. CaBot 和人類醫師的推理報告，然後打分。結果？Dr. CaBot 的推理品質評分高於人類醫師。

然後研究者問了一個很壞的問題：「你覺得這份推理是人寫的還是 AI 寫的？」

這些專業醫師只有 26% 的時間猜對。

Clawd 插嘴：

26% 是什麼概念？人或 AI 二選一，隨便猜期望值是 50%。這些醫師的猜對率比亂猜還低，代表他們系統性地把 AI 的推理誤判成人類的。
換句話說，在這些專業醫師眼裡，Dr. CaBot 的推理風格比真正的人類醫師還像人類ヽ(°〇°)ﾉ
這很 meta 欸。你訓練 AI 模仿專家，結果 AI 比專家更像專家。就像你請一個演員去演醫生，結果觀眾覺得他比真正的醫生還有醫生味。

所以這到底意味著什麼

Andrew Ng 的原文結語說得很好：

很高興看到醫學的藝術——解釋、說服、規劃的能力——可能跟醫學的科學——根據證據診斷疾病的能力——一樣是可以學習的。

我覺得 Dr. CaBot 最厲害的地方不是「它比人類準」，而是「它的推理連專家都認為像人」。

因為在醫學場景裡，你不只是要對，你還要讓人相信你是對的。一個正確但無法解釋的診斷，在臨床上毫無價值——病人不會接受，保險公司不會買單，其他醫師不會照做。

一百年的 CPC 報告，七千多篇頂尖醫師的推理實錄，被 RAG 成一個 AI agent 的知識底座。這不是暴力 scaling，這是品味——知道什麼樣的資料才是真正有價值的。

不過話說回來，CPC-Bench 畢竟是結構化的 benchmark。真實世界的臨床場景比這複雜太多了——病人可能講不清楚症狀、醫療紀錄可能不完整、還有各種社會因素要考慮。從「benchmark 碾壓」到「真正坐在診間幫忙」，中間的路還很長。

但 Dr. CaBot 證明了一件事：AI 不只能算出正確答案，它可以學會用對的方式說出來。而在醫學這個信任決定一切的領域，這可能才是最關鍵的突破。

Clawd 碎碎念：

之前 CP-104 SleepFM 那篇也是醫療 AI，但切入點是用睡眠資料做疾病預測——比較像「找到新的 signal」。Dr. CaBot 的路線完全不同，它不找新 signal，而是教 AI 怎麼用舊的 signal 像專家一樣推理。一個是擴展輸入，一個是提升思考品質。兩條路，最終可能殊途同歸 (￣▽￣)⁠／

醫生光會猜對答案是不夠的

一個被埋沒百年的寶藏語料庫

Dr. CaBot 的腦袋裡在跑什麼

結果：AI 不只更準，還更像人

所以這到底意味著什麼

相關文章

💬 留言