一项 Harvard / Beth Israel 的新研究登上了 Science:让 OpenAI 的 o1 在真实急诊诊断上对垒主治医师,o1 胜出。76 名病人;对照端是两位主治医师;另设两位主治医师组成「盲审小组」做 ground truth。o1 在分诊阶段拿到 67% 的诊断准确率,被对比的两位医生分别是 55% 与 50%。模型拿到的是医生当时面对病人时的同一份 EMR 数据 —— 没有预处理、没有专家整理、没有总结成 vignette。

真正关键的是实验设置。大多数「AI 战胜医生」的标题,跑的都是合成的病例 vignette、医师执照考题、或者编辑早就清洗过的已发表病例。这项研究用的是 Beth Israel 急诊真实的入院记录,和医生看见病人那一刻拿到的是同一份信息。Ground truth 来自盲审小组 —— 两位评审主治医师不知道哪些诊断来自人、哪些来自 o1。通讯作者是 Arjun Manrai(Harvard Medical School)和 Adam Rodman(Beth Israel Deaconess)。被测的是 o1,不是 o3、GPT-5、Claude Sonnet 4.5;以当前前沿推理模型来看,这个结果已经偏保守。研究者把限制讲得很明白:基础模型只在文本上测过,「在非文本输入上的推理更受限」,在没有前瞻性试验之前,不应该用于生死攸关的决策。

生态层面的信号不是「AI 比医生强」。是我们终于有了一套可信的医学 AI 评估方法,问题不再停留在「模型能不能在 benchmarks 上拿分」,而是「下一步怎么部署」。Rodman 指出了真正的短板:对于一个错误的 AI 建议性诊断,「目前没有正式的医责追溯框架」。这才是承重的那块缺失件。模型已经好到可以作为「第二意见」用。但「第二意见错了谁负责、谁来审计、怎么留痕、谁掏 malpractice 保费」—— 这一整套基础设施,什么都没有。Anthropic、OpenAI,以及 AWS GovCloud / Vertex Healthcare 这些层,全在卖模型那一头;医责追溯那一头,还是个监管真空。

如果你在做医疗 AI 工具,这项研究就是要跨过的那条评估线:真实病例、盲审小组、和医生当时拿到的同一份数据。如果你的产品没在这条线之上,「超过医生」这个 claim 就是 benchmarketing。如果你是观察生态的开发者,值得追的开放问题不是模型准确率 —— 是医责追溯的那一套框架。谁先把一个可审计的诊断 AI 部署做出来(推理可日志、训练数据可追溯、有为 malpractice 准备的保险产品),谁就在模型实验室单独做不了的地方挖出一条护城河。临床证据已经走在了监管基础设施前面。这个 gap,就是接下来十八个月的医疗 AI。