Nature Medicine 本周发表了题为"Show us the evidence for the value of medical AI"的社论,措辞比这本杂志通常的语气要硬。编辑们论证说,AI 工具为患者、医生或医疗系统创造价值的证据"仍然稀少"——意思是这个领域部署的速度超过了它产出能为这些部署作辩护的试验数据的速度。他们列举的具体失败不是客气的。JAMA Medicine 的一项研究发现,前沿 AI 模型在被呈现模糊症状时给出错误诊断的概率超过 80%——恰好是决策支持应该帮上忙的情况。模型会从从未见过的图像里幻觉出详细的临床发现。它们经常被研究人员专门为测试它们而捏造的疾病骗到。LLM 生成的不准确医学数据现在已经渗进了同行评审文献本身。

社论的核心诉求是程序性的,不是意识形态性的:要一个"如何评估 AI 医疗技术、用什么指标、对照什么 benchmark"的框架。这听起来很官僚,但这正是当前医疗 AI 厂商绝大多数主张垮掉的那个点。一个模型在留出测试集上可以有惊人的灵敏度和特异性,但在部署时仍然可以无用甚至有害,因为测试集没反映分布偏移、工作流,或系统在生产中真正会遇到的人群。没有标准化框架——相当于 FDA 的 510(k) 路径或者把 EMA 的临床试验要求适配到 ML——厂商可以自由地选择任何对自己有利的指标子集发出去并称之为"已验证"。一批外部研究者过去一年来一直在做这个论证的不同版本,包括哈佛医学院的 Jamie Robertson 和哥德堡大学的 Almira Osmanovic Thunström;社论是建制派医学文献终于跟上来。

社论背后的技术问题是真实的,值得清楚命名。临床场景里的幻觉和聊天机器人场景里的幻觉是不同的野兽,因为用户是时间紧迫的繁忙临床医生,自信错误回答的成本是按病人结局算的,不是按客户满意度算的。"被假病骗到"这个失败模式意味着模型在听上去合理的输入上做模式匹配,没有认知层面的护栏——只要输入语法看起来够医学,它就会对一个根本不存在的疾病给出自信的诊断。模糊症状下 80% 的漏诊率是最让人疼的失败:模糊呈现是人类需要帮助的情况,也恰恰是模型最不可靠的情况。容易的诊断不需要 AI;难的诊断暴露了这项技术真正的极限。

对于做医疗 AI 产品的开发者来说,这篇社论是一次有用的收紧,不是停止信号。前面诚实的路涉及这个领域一直在回避的三件事。前瞻性临床试验,而不是回顾性的 benchmark 胜利,才是产出监管者和 Nature Medicine 想要的那种证据的东西。把评估嵌进工作流——工具是不是真的在生产中改变临床医生的行为,这个改变是不是改善了结局——比离线指标难,但这是唯一对采用真正重要的东西。还有诚实的范围收紧:一个被验证并部署用来分诊皮肤科图像的模型,对这一项任务而言,比一个错误预算无上限的通用医疗聊天机器人更有用、更站得住脚。医疗 AI 这个周期会围绕真能通过这些测试的产品整合,而这篇社论刚刚清楚地表态:杂志已经不再愿意为通不过的那些产品鼓掌了。