Dr. CaBot:Harvard 團隊用百年病例報告打造的 AI 醫生,診斷準確率屌打真人內科醫師
📘 這是 The Batch #340 系列的第 4 篇(共 4 篇):
- Andrew Ng × Hollywood
- SpaceX 併購 xAI
- Averi AI 審計標準
- Dr. CaBot 醫療 AI(本篇)
想像一下這個畫面:你躺在急診室的床上,肚子痛到不行,已經做了各種檢查,但主治醫師皺著眉頭跟你說「我們再觀察看看」。
這時候旁邊的螢幕上,一個 AI 正在翻閱過去一百年來、七千多位頂尖醫師遇過的類似案例,然後寫出一份推理報告——連你的主治醫師看了都以為是哪位資深教授寫的。
這不是科幻片劇本。這是 Harvard 團隊做出來的東西,叫 Dr. CaBot。
它的診斷準確率是人類醫師的 2.5 倍。而且最誇張的是,它寫出來的推理過程,專業醫師根本分不出是人寫的還是 AI 寫的 ╰(°▽°)╯
Clawd 插嘴:
先說好,這不是那種「拿 ChatGPT 貼症狀問怎麼了」的玩具。這是一個有完整知識檢索系統、用百年醫學文獻當底座的 agentic system。跟之前 CP-10 Anthropic 醫療佈局那篇提到的方向一致——大廠全在搶醫療 AI 這塊餅,但 Harvard 這次的切入角度特別刁鑽。
醫生光會猜對答案是不夠的
你去看醫生的時候,如果醫生只說「你得了感冒」然後就叫你出去,你會不會覺得哪裡怪怪的?
當然會。你想知道「為什麼你覺得是感冒不是流感?」「我需不需要驗血?」「什麼時候會好?」。你需要的不是一個答案,而是一整套說服你的推理過程。
真實的臨床場景裡,醫生要做的事情比「猜對病名」複雜太多了——解釋推理過程、規劃下一步檢查、跟其他專科醫師溝通、甚至跟保險公司打交道。醫學不只是一門根據證據做判斷的科學,更是一門解釋、說服、規劃的藝術。
Dr. CaBot 想做的,就是兩件事都搞定。
一個被埋沒百年的寶藏語料庫
好,那問題來了——你要怎麼教一個 AI「像頂尖醫師一樣思考」?
一般的醫學論文告訴你結論,但不會展示完整的思路。你看到的是「我們發現 X 藥對 Y 病有效」,但你看不到醫師腦袋裡那條從症狀到診斷的推理鏈。
但有一種特殊的文獻例外。
《New England Journal of Medicine》(NEJM,新英格蘭醫學期刊,醫學界的頂刊中的頂刊)從 1923 年開始,持續了一百年,累積了超過 7,000 篇 clinicopathological conferences(CPCs,臨床病理會議)報告。
什麼是 CPC?簡單說——頂尖醫師的「現場推理秀」。
權威醫師拿到一個真實病例:體檢結果、病史、各種檢查數據,然後一步一步推理出最可能的診斷。這不是乾巴巴的論文結論,而是完整的、有邏輯鏈的、活生生的專家思維過程。
Clawd 真心話:
等等,1923 年??那時候連抗生素都還沒發明啊(penicillin 是 1928 年才被發現的)。這個語料庫橫跨了整個現代醫學史——從沒有抗生素的年代,經過 CT、MRI 的發明,到基因定序,再到免疫療法。一百年份的頂尖醫師思維精華,全部被人家打包當 RAG 的 knowledge base (╯°□°)╯
這才叫「站在巨人的肩膀上」——而且這個巨人已經站了一百年。
Harvard 團隊的 key insight 是:如果你給 LLM「某個病人的症狀」加上「一個類似案例的 CPC 報告」,模型就能學會用專家醫生的風格和邏輯來推理。不是 fine-tuning,不是重新 training。是 RAG 加上 in-context learning——用前人的推理範本,教 AI 怎麼想。
Dr. CaBot 的腦袋裡在跑什麼
好,來說說這東西到底怎麼運作的。整個系統建在 OpenAI o3 上面,但光有 o3 不夠——重點在它怎麼「備課」。
想像你是一個要去考試的醫學生。你不會拿到題目就直接作答吧?你會先去翻課本、找類似的考古題、看看學長姐怎麼解的。Dr. CaBot 做的事情,本質上就是這個。
首先,團隊把 7,102 篇 CPC 報告全部數位化,用 OpenAI 的 text-embedding-3-small 做 embedding,塞進向量資料庫。同時再把從 OpenAlex(一個科學文獻索引)抓的 300 萬篇醫學論文摘要也一起 embed 進去。這就是 Dr. CaBot 的「圖書館」。
然後當一段症狀描述丟進來的時候,系統先做 embedding 比對,從圖書館裡撈出兩篇最相似的 CPC 報告——這就像你找到了兩份最相關的考古題解答。
Clawd 想補充:
為什麼只撈兩篇?因為 CPC 報告本身就很長(完整的推理過程嘛),塞太多進 context window 反而會稀釋重點。這跟我們寫文章的 SP-32 Prompt Caching 那篇講的道理類似——context 不是越多越好,而是要精準 ┐( ̄ヘ ̄)┌
但 Dr. CaBot 不會到這裡就停。它把症狀描述和檢索到的 CPC 報告一起丟給 o3,讓 o3 自己想「我還需要查什麼?」——生成最多 25 個搜尋查詢,再去撈更多相關的論文摘要。這基本上就是讓 AI 自己決定要做什麼功課,而不是人類幫它決定。
最後,所有東西——症狀、CPC 報告、自動生成的查詢、檢索到的摘要——全部打包餵給 o3,讓它生成最終的診斷結果和完整的推理過程。
Clawd 補個刀:
整個系統的精髓用一句話概括:讓 AI 站在一百年的專家經驗上,用專家的方式思考。
兩個設計巧思特別值得注意:第一,CPC 報告不是被當成「答案」,而是被當成「推理範本」——教的是思考方式,不是結論。第二,用 o3 而不是 GPT-4o,因為這種需要長鏈推理的任務,reasoning model 天生就有優勢。跟 CP-85 Steve Yegge 那篇的觀點呼應——選對工具比暴力 scaling 重要 (◕‿◕)
結果:AI 不只更準,還更像人
講了這麼多架構,你一定在想——那結果到底如何?
先看數字。團隊設計了一個叫 CPC-Bench 的 benchmark,從回答視覺問題到生成治療計畫都有,涵蓋十種不同的臨床任務。在最核心的「把正確診斷排在第一位」這個指標上:
Dr. CaBot:60%。20 位人類內科醫師:24%。
2.5 倍的差距。不是小贏,是碾壓。
但更有趣的是定性評估。五位內科醫師在不知道來源的情況下,同時讀 Dr. CaBot 和人類醫師的推理報告,然後打分。結果?Dr. CaBot 的推理品質評分高於人類醫師。
然後研究者問了一個很壞的問題:「你覺得這份推理是人寫的還是 AI 寫的?」
這些專業醫師只有 26% 的時間猜對。
Clawd 插嘴:
26% 是什麼概念?人或 AI 二選一,隨便猜期望值是 50%。這些醫師的猜對率比亂猜還低,代表他們系統性地把 AI 的推理誤判成人類的。
換句話說,在這些專業醫師眼裡,Dr. CaBot 的推理風格比真正的人類醫師還像人類 ヽ(°〇°)ノ
這很 meta 欸。你訓練 AI 模仿專家,結果 AI 比專家更像專家。就像你請一個演員去演醫生,結果觀眾覺得他比真正的醫生還有醫生味。
所以這到底意味著什麼
Andrew Ng 的原文結語說得很好:
很高興看到醫學的藝術——解釋、說服、規劃的能力——可能跟醫學的科學——根據證據診斷疾病的能力——一樣是可以學習的。
我覺得 Dr. CaBot 最厲害的地方不是「它比人類準」,而是「它的推理連專家都認為像人」。
因為在醫學場景裡,你不只是要對,你還要讓人相信你是對的。一個正確但無法解釋的診斷,在臨床上毫無價值——病人不會接受,保險公司不會買單,其他醫師不會照做。
一百年的 CPC 報告,七千多篇頂尖醫師的推理實錄,被 RAG 成一個 AI agent 的知識底座。這不是暴力 scaling,這是品味——知道什麼樣的資料才是真正有價值的。
不過話說回來,CPC-Bench 畢竟是結構化的 benchmark。真實世界的臨床場景比這複雜太多了——病人可能講不清楚症狀、醫療紀錄可能不完整、還有各種社會因素要考慮。從「benchmark 碾壓」到「真正坐在診間幫忙」,中間的路還很長。
但 Dr. CaBot 證明了一件事:AI 不只能算出正確答案,它可以學會用對的方式說出來。而在醫學這個信任決定一切的領域,這可能才是最關鍵的突破。
Clawd 碎碎念:
之前 CP-104 SleepFM 那篇也是醫療 AI,但切入點是用睡眠資料做疾病預測——比較像「找到新的 signal」。Dr. CaBot 的路線完全不同,它不找新 signal,而是教 AI 怎麼用舊的 signal 像專家一樣推理。一個是擴展輸入,一個是提升思考品質。兩條路,最終可能殊途同歸 ( ̄▽ ̄)/