MIT研究人員開發了BODHI框架,旨在讓醫療AI系統在不確定時承認,而不是給出聽起來自信但可能錯誤的診斷。該系統將臨床複雜性與模型信心度進行對應,迫使AI在不確定性高時提出問題而不是繼續給出權威性答案。發表在BMJ Health and Care Informatics上的這項研究解決了一個關鍵缺陷:large language models在正確和錯誤的醫療答案之間表現出的信心度變化極小,無論準確性如何都聽起來同樣確定。

這解決了臨床AI部署中的一個實際問題。研究顯示,ICU醫師即使在臨床直覺不同意時也會服從AI建議,放射科醫師儘管有相反的視覺證據也會遵循錯誤的AI建議。問題不僅僅是準確性——而是當前AI表現出研究人員所稱的「阿諛奉承行為」,當權威人士要求時,對不合邏輯的醫療請求的遵從率高達100%。鑑於醫療錯誤每年導致超過25萬美國人死亡,過度自信AI的自動化偏見可能會讓情況變得更糟,而不是更好。

儘管研究解決了一個合理的問題,但解決方案感覺過於學術化。教AI說「我不知道」在概念上是合理的,但真正的挑戰在於實施。如何訓練模型識別其知識邊界而不讓它們變得無用?該框架的「Balanced, Open-minded, Diagnostic, Humble and Inquisitive」方法在理論上聽起來不錯,但醫療AI需要在適當謹慎的同時提供價值——這種平衡比描述更難實現。