一項 Harvard / Beth Israel 的新研究登上了 Science:讓 OpenAI 的 o1 在真實急診診斷上對壘主治醫師,o1 勝出。76 名病人;對照端是兩位主治醫師;另設兩位主治醫師組成「盲審小組」做 ground truth。o1 在分診階段拿到 67% 的診斷準確率,被對比的兩位醫師分別是 55% 與 50%。模型拿到的是醫師當時面對病人時的同一份 EMR 資料 —— 沒有預處理、沒有專家整理、沒有總結成 vignette。

真正關鍵的是實驗設置。大多數「AI 戰勝醫師」的標題,跑的都是合成的病例 vignette、醫師執照考題、或者編輯早就清洗過的已發表病例。這項研究用的是 Beth Israel 急診真實的入院記錄,和醫師看見病人那一刻拿到的是同一份資訊。Ground truth 來自盲審小組 —— 兩位評審主治醫師不知道哪些診斷來自人、哪些來自 o1。通訊作者是 Arjun Manrai(Harvard Medical School)和 Adam Rodman(Beth Israel Deaconess)。被測的是 o1,不是 o3、GPT-5、Claude Sonnet 4.5;以當前前沿推理模型來看,這個結果已經偏保守。研究者把限制講得很明白:基礎模型只在文字上測過,「在非文字輸入上的推理更受限」,在沒有前瞻性試驗之前,不應該用於生死攸關的決策。

生態層面的訊號不是「AI 比醫師強」。是我們終於有了一套可信的醫學 AI 評估方法,問題不再停留在「模型能不能在 benchmarks 上拿分」,而是「下一步怎麼部署」。Rodman 指出了真正的短板:對於一個錯誤的 AI 建議性診斷,「目前沒有正式的醫責追溯框架」。這才是承重的那塊缺失件。模型已經好到可以作為「第二意見」用。但「第二意見錯了誰負責、誰來稽核、怎麼留痕、誰掏 malpractice 保費」—— 這一整套基礎設施,什麼都沒有。Anthropic、OpenAI,以及 AWS GovCloud / Vertex Healthcare 這些層,全在賣模型那一頭;醫責追溯那一頭,還是個監管真空。

如果你在做醫療 AI 工具,這項研究就是要跨過的那條評估線:真實病例、盲審小組、和醫師當時拿到的同一份資料。如果你的產品沒在這條線之上,「超過醫師」這個 claim 就是 benchmarketing。如果你是觀察生態的開發者,值得追的開放問題不是模型準確率 —— 是醫責追溯的那一套框架。誰先把一個可稽核的診斷 AI 部署做出來(推理可日誌、訓練資料可追溯、有為 malpractice 準備的保險產品),誰就在模型實驗室單獨做不了的地方挖出一條護城河。臨床證據已經走在了監管基礎設施前面。這個 gap,就是接下來十八個月的醫療 AI。