4月16日在伦敦WIRED Health上,Reid Hoffman——LinkedIn联合创始人、OpenAI董事会成员、抗癌药物发现初创公司Manas AI创始人——表示任何不使用一个或多个前沿模型作为第二意见的医生「接近犯下渎职罪」。他的论点是,前沿LLM已经吸收了万亿字的医疗信息,可以标记临床医生可能错过的可能性;人类保留决策权,但损失了一个本可避免的错误。Hoffman承认早期研究表明,LLM向寻求医疗建议的普通公众用户提供不准确和易变的信息,但他的框架是,失败模式是「外包批判性思维」而非「增强它」。他还指出英国NHS的人员配置危机是这一论点现在重要的结构性原因:医生不够,每部智能手机上的免费LLM医疗助手可以作为分诊功能,拒绝增强,在他看来,是让患者得到更糟的服务。「渎职」的框架在修辞上具有侵略性——大多数临床医生会拒绝这种语言,即使他们接受底层主张的某个版本——但它结晶了医疗AI builder两年来一直在回避的问题。
Hoffman论点下方的临床研究证据比金句所暗示的更复杂。前沿模型既产生了令人印象深刻的病例书写表现(一些近期研究显示GPT级系统在诊断推理小品上超越住院医师),也有充分记录的失败模式(幻觉的药物相互作用、对罕见疾病自信地错误诊断、无法处理矛盾的临床信号)。我昨天报道的浙江大学Centaur复现研究——研究人员将认知任务提示替换为「请选择选项A」并观察模型继续输出训练数据中的标准答案——正是应该让任何临床医生对未经批判的第二意见使用感到紧张的失败模式。该模型不是在推理你的特定患者。它正在将病例描述模式匹配到其训练分布中最接近的事物,并产生该模式的众数正确答案。有时这比凌晨3点疲惫的住院医师更好。有时它正在自信地检索患者实际呈现的不同问题的答案。Hoffman声称第二意见框架解决了这一点,部分正确——人类应该整合——但假设临床医生有时间和经过校准的怀疑来覆盖一个听起来自信的LLM输出,而关于自动化偏见的实证文献表明他们通常不会。
这表面化的部署架构问题是医疗AI builder需要解决的部分,它与我整个星期一直在写的跨领域模式相呼应。Thales机器人文章的检测-vs-授权框架、AI检测对学生文章的来源-和-过程框架,以及Centaur文章的指令替换框架都在这里汇聚。Hoffman的「第二意见」只有在工作流以结构化、可审计的形式捕获三件事时,才能作为部署模型工作:临床医生看到和得出的结论;模型产生了什么以及在什么输入上;以及附加临床医生推理的覆盖或同意决策。今天医务人员现成使用的消费级聊天界面都不会产生该工件。未来18个月医疗AI的产品问题不是「模型够好吗?」,而是「工作流是否足够好,以至于当患者受到伤害时,你可以重建谁在何时对什么进行了推理?」。没有这个,「第二意见」就会崩溃为「我问了ChatGPT然后按它说的做」——这正是Hoffman框架试图回避的渎职暴露。架构比模型准确性更重要。
builder的三个收获。首先,如果你在临床AI中构建任何东西——诊断支持、分诊、EHR-summarization、药物相互作用检查——产品问题不是模型。它是你的工具产生的推理链工件。在医疗AI下一个十年中获胜的公司将是那些将临床医生推理作为一等输出而非事后想法可见和可覆盖的公司。为六年后渎职律师的证词而构建,而不是为演示。其次,关注监管者,而不仅仅是临床医生。FDA、MHRA、EMA和国家执照机构目前都对「咨询了LLM」是否是护理标准的一部分保持沉默,但Hoffman的框架将问题推向公开。第一个主要的渎职案件,原告的论点是「临床医生应该使用可用的LLM工具但没有」,会重新构建监管对话,该案件即将到来,可能在18个月内。第三,Hoffman做出的NHS式「免费智能手机医疗助手」推介是哪些监管制度接受LLM辅助分诊作为增强而不是无证行医的金丝雀。英国、新加坡、阿联酋和爱沙尼亚最有可能开绿灯;美国州医疗委员会最有可能反推。产品机会是真实的,但管辖摩擦将定义哪些builder规模化交付,哪些被困在试点中。
