紐約衛生和醫院系統CEO Mitchell Katz——美國最大的公立醫療系統,擁有11家醫院——在Crain's小組會議上宣稱,他的機構「現在就能用AI取代大部分放射科醫師,只要我們準備好應對監管挑戰」。Katz特別提到自動化乳癌篩檢,只有當AI標記異常讀片時才讓放射科醫師待命,以實現「重大節省」。這發生在NYC歷史上最大規模護理師罷工的幾週後。
AI放射學炒作的時機再糟糕不過了。Stanford新研究顯示,前沿AI模型可以在胸部X光醫學基準測試中取得優異成績,卻從未真正看過影像——研究人員稱之為「AI幻影」。與典型幻覺不同,這些幻影為不存在的發現產生理性、連貫的解釋。模型模擬整個診斷過程卻沒有任何根據,使標準的幻覺防護措施變得無用。
North Coast Imaging的放射科醫師Mohammed Suhail稱Katz的評論是「自信但無知的醫院管理者對患者構成危險的不可否認證明」,並警告「任何試圖實施純AI讀片的嘗試都會立即導致患者傷害和死亡」。Suhail的評估與Stanford發現一致——視覺語言模型儘管在基準測試中表現出色,但在功能上仍然是盲目的。
對於構建醫療AI工具的開發者來說,這是關於評估方法論的警鐘。如果你的模型可以在不看影像的情況下通過測試,那麼你的基準測試就有問題。採購AI解決方案的醫療管理者需要理解基準測試效能與現實世界可靠性之間的差異——特別是當生命懸於一線時。
