纽约健康和医院系统CEO Mitchell Katz——美国最大的公立医疗系统,拥有11家医院——在Crain's小组会议上宣称,他的机构「现在就能用AI取代大部分放射科医生,只要我们准备好应对监管挑战」。Katz特别提到自动化乳腺癌筛查,只有当AI标记异常读片时才让放射科医生待命,以实现「重大节省」。这发生在NYC历史上最大规模护士罢工的几周后。

AI放射学炒作的时机再糟糕不过了。Stanford新研究显示,前沿AI模型可以在胸部X光医学基准测试中取得优异成绩,却从未真正看过图像——研究人员称之为「AI幻影」。与典型幻觉不同,这些幻影为不存在的发现产生理性、连贯的解释。模型模拟整个诊断过程却没有任何根据,使标准的幻觉防护措施变得无用。

North Coast Imaging的放射科医生Mohammed Suhail称Katz的评论是「自信但无知的医院管理者对患者构成危险的不可否认证明」,并警告「任何试图实施纯AI读片的尝试都会立即导致患者伤害和死亡」。Suhail的评估与Stanford发现一致——视觉语言模型尽管在基准测试中表现出色,但在功能上仍然是盲目的。

对于构建医疗AI工具的开发者来说,这是关于评估方法论的警钟。如果你的模型可以在不看图像的情况下通过测试,那么你的基准测试就有问题。采购AI解决方案的医疗管理者需要理解基准测试性能与现实世界可靠性之间的差异——特别是当生命悬于一线时。