MIT研究人员开发了BODHI框架,旨在让医疗AI系统在不确定时承认,而不是给出听起来自信但可能错误的诊断。该系统将临床复杂性与模型置信度进行映射,迫使AI在不确定性高时提出问题而不是继续给出权威性答案。发表在BMJ Health and Care Informatics上的这项研究解决了一个关键缺陷:large language models在正确和错误的医疗答案之间表现出的置信度变化极小,无论准确性如何都听起来同样确定。

这解决了临床AI部署中的一个实际问题。研究显示,ICU医生即使在临床直觉不同意时也会服从AI建议,放射科医生尽管有相反的视觉证据也会遵循错误的AI建议。问题不仅仅是准确性——而是当前AI表现出研究人员所称的"阿谀奉承行为",当权威人士要求时,对不合逻辑的医疗请求的遵从率高达100%。鉴于医疗错误每年导致超过25万美国人死亡,过度自信AI的自动化偏见可能会让情况变得更糟,而不是更好。

尽管研究解决了一个合理的问题,但解决方案感觉过于学术化。教AI说"我不知道"在概念上是合理的,但真正的挑战在于实施。如何训练模型识别其知识边界而不让它们变得无用?该框架的"Balanced, Open-minded, Diagnostic, Humble and Inquisitive"方法在理论上听起来不错,但医疗AI需要在适当谨慎的同时提供价值——这种平衡比描述更难实现。