Nature Medicine 本週發表了題為「Show us the evidence for the value of medical AI」的社論,措辭比這本期刊通常的語氣要硬。編輯們論證說,AI 工具為患者、醫師或醫療系統創造價值的證據「仍然稀少」——意思是這個領域部署的速度超過了它產出能為這些部署作辯護的試驗資料的速度。他們列舉的具體失敗不是客氣的。JAMA Medicine 的一項研究發現,前沿 AI 模型在被呈現模糊症狀時給出錯誤診斷的機率超過 80%——恰好是決策支持應該幫上忙的情況。模型會從從未見過的影像裡幻覺出詳細的臨床發現。它們經常被研究人員專門為測試它們而捏造的疾病騙到。LLM 生成的不準確醫學資料現在已經滲進了同行評審文獻本身。

社論的核心訴求是程序性的,不是意識形態性的:要一個「如何評估 AI 醫療技術、用什麼指標、對照什麼 benchmark」的框架。這聽起來很官僚,但這正是當前醫療 AI 廠商絕大多數主張垮掉的那個點。一個模型在保留測試集上可以有驚人的靈敏度和特異度,但在部署時仍然可以無用甚至有害,因為測試集沒反映分布偏移、工作流程,或系統在生產中真正會遇到的人群。沒有標準化框架——相當於 FDA 的 510(k) 路徑或者把 EMA 的臨床試驗要求適配到 ML——廠商可以自由地選擇任何對自己有利的指標子集發出去並稱之為「已驗證」。一批外部研究者過去一年來一直在做這個論證的不同版本,包括哈佛醫學院的 Jamie Robertson 和哥德堡大學的 Almira Osmanovic Thunström;社論是建制派醫學文獻終於跟上來。

社論背後的技術問題是真實的,值得清楚命名。臨床場景裡的幻覺和聊天機器人場景裡的幻覺是不同的野獸,因為使用者是時間緊迫的繁忙臨床醫師,自信錯誤回答的成本是按病人結局算的,不是按客戶滿意度算的。「被假病騙到」這個失敗模式意味著模型在聽上去合理的輸入上做模式匹配,沒有認知層面的護欄——只要輸入語法看起來夠醫學,它就會對一個根本不存在的疾病給出自信的診斷。模糊症狀下 80% 的漏診率是最讓人疼的失敗:模糊呈現是人類需要幫助的情況,也恰恰是模型最不可靠的情況。容易的診斷不需要 AI;難的診斷暴露了這項技術真正的極限。

對於做醫療 AI 產品的開發者來說,這篇社論是一次有用的收緊,不是停止訊號。前面誠實的路涉及這個領域一直在迴避的三件事。前瞻性臨床試驗,而不是回顧性的 benchmark 勝利,才是產出監管者和 Nature Medicine 想要的那種證據的東西。把評估嵌進工作流程——工具是不是真的在生產中改變臨床醫師的行為,這個改變是不是改善了結局——比離線指標難,但這是唯一對採用真正重要的東西。還有誠實的範圍收緊:一個被驗證並部署用來分診皮膚科影像的模型,對這一項任務而言,比一個錯誤預算無上限的通用醫療聊天機器人更有用、更站得住腳。醫療 AI 這個週期會圍繞真能通過這些測試的產品整合,而這篇社論剛剛清楚地表態:期刊已經不再願意為通不過的那些產品鼓掌了。