史丹佛主導、發表在 Nature Medicine 上的一項新研究,第一作者 Ethan Goh 和 Robert Gallo,資深作者是史丹佛的 Jonathan Chen 和哈佛的 Adam Rodman,讓 70 位美國執照醫師對陣一個客製化的 GPT-4 系統,做 254 個模擬臨床病例梗概。頭條數字很震撼:醫師用常規參考工具在診斷和處置上拿了 75%,把 AI 當第一意見時拉到 85%,當第二意見時是 82%,AI 單獨跑拿到 87%。臨床醫師對使用這個工具的開放度從試驗前的 91% 跳到試驗後的 99%。媒體在把這件事當成「聊天機器人勝過醫師」。請直接去讀方法學那一節。
研究用的是病例梗概——為評估目的寫的結構化病例描述——不是真實患者就診。作者們對為什麼這樣做講得很明白:梗概可控、可打分、可重現。它們也(用他們自己的話說)「不太能代表真實臨床實踐」。一個梗概給模型和醫師同樣乾淨的文字輸入,沒有缺失資料、沒有曖昧的患者情緒、沒有時間壓力、沒有病歷雜訊、沒有必須在恰當時刻問出的追問。試驗裡的醫師可以查網路和醫學參考資料,但拿不到醫師真正的工具箱,那裡面包括體格檢查、和患者的縱向關係、以及讓醫師能用文字捕捉不到的方式察覺「哪兒不對勁」的工作流。AI 在病例梗概上拿 87%,不等於 AI 在真實門診中拿 87%,作者們清楚這點。
把這篇 Goh-Rodman 論文和同一週發表的 Nature Medicine 社論一起讀——那篇社論的論點是「AI 工具為患者、醫師或醫療系統創造價值的證據仍然稀少」,並呼籲針對約定 benchmark 的前瞻性評估——這篇論文恰恰就是社論說的那一類工作。它嚴謹,提供有用的方向性訊號,但還沒有建立起足以支撐廣泛臨床部署的證據。AI-當-第一意見帶來的 +9.9% 準確率提升,作為前瞻性真實世界試驗裡要去驗證的假設是有意義的;作為告訴醫院系統整合這個工具的依據,還談不上。作者註明的 10% 系統失敗率、他們提到的非確定性、以及病例梗概難度和真實臨床就診難度之間的差距,都是下一個研究必須長得跟這個不一樣的理由。
對做臨床 AI 的開發者來說,實用的解讀是:這就是當前領域產出的證據等級——病例梗概研究、回顧性 benchmark 勝利、開放度調查——而這還不夠。史丹佛團隊做的是高品質工作,他們的結果是個可信論證:LLM 第二意見可能在某些工作流裡改善診斷準確度。還缺的是前瞻性試驗,把同一個系統放進真實診所,配真實患者、真實時間壓力、真實工作流整合,和一個綁定到患者結局而不是梗概打分的真實結果指標。Nature Medicine 的編輯們說得對:這個領域在產出那種證據之前就在宣布勝利,這項研究儘管設計扎實,仍然屬於那批「未達部署級」的證據基礎的一部分。下一波真正重要的研究,是在真實醫院裡跑、在醫療交付現場量測診斷準確度變化和到正確診斷的時間變化的那些研究。
