斯坦福主导、发表在 Nature Medicine 上的一项新研究,第一作者 Ethan Goh 和 Robert Gallo,资深作者是斯坦福的 Jonathan Chen 和哈佛的 Adam Rodman,让 70 位美国执照医师对阵一个定制的 GPT-4 系统,做 254 个模拟临床病例梗概。头条数字很震撼:医师用常规参考工具在诊断和处置上拿了 75%,把 AI 当第一意见时拉到 85%,当第二意见时是 82%,AI 单独跑拿到 87%。临床医生对使用这个工具的开放度从试验前的 91% 跳到试验后的 99%。媒体在把这件事当成"聊天机器人胜过医生"。请直接去读方法学那一节。
研究用的是病例梗概——为评估目的写的结构化病例描述——不是真实患者就诊。作者们对为什么这样做讲得很明白:梗概可控、可打分、可复现。它们也(用他们自己的话说)"不太能代表真实临床实践"。一个梗概给模型和医师同样干净的文本输入,没有缺失数据、没有暧昧的患者情绪、没有时间压力、没有病历噪声、没有必须在恰当时刻问出的追问。试验里的医师可以查网络和医学参考资料,但拿不到医师真正的工具箱,那里面包括体格检查、和患者的纵向关系、以及让医师能用文字捕捉不到的方式察觉"哪儿不对劲"的工作流。AI 在病例梗概上拿 87%,不等于 AI 在真实门诊中拿 87%,作者们清楚这点。
把这篇 Goh-Rodman 论文和同一周发表的 Nature Medicine 社论一起读——那篇社论的论点是"AI 工具为患者、医生或医疗系统创造价值的证据仍然稀少",并呼吁针对约定 benchmark 的前瞻性评估——这篇论文恰恰就是社论说的那一类工作。它严谨,提供有用的方向性信号,但还没有建立起足以支撑广泛临床部署的证据。AI-当-第一意见带来的 +9.9% 准确率提升,作为前瞻性真实世界试验里要去验证的假设是有意义的;作为告诉医院系统集成这个工具的依据,还谈不上。作者注明的 10% 系统失败率、他们提到的非确定性、以及病例梗概难度和真实临床就诊难度之间的差距,都是下一个研究必须长得跟这个不一样的理由。
对做临床 AI 的开发者来说,实用的解读是:这就是当前领域产出的证据级别——病例梗概研究、回顾性 benchmark 胜利、开放度调查——而这还不够。斯坦福团队做的是高质量工作,他们的结果是个可信论证:LLM 第二意见可能在某些工作流里改善诊断准确度。还缺的是前瞻性试验,把同一个系统放进真实诊所,配真实患者、真实时间压力、真实工作流集成,和一个绑定到患者结局而不是梗概打分的真实结果指标。Nature Medicine 的编辑们说得对:这个领域在产出那种证据之前就在宣布胜利,这项研究尽管设计扎实,仍然属于那批"未达部署级"的证据基础的一部分。下一波真正重要的研究,是在真实医院里跑、在医疗交付现场测量诊断准确度变化和到正确诊断的时间变化的那些研究。
