Gothenburg 大學與 Chalmers 理工大學的一項合作研究,本週發表在 Acta Dermato-Venereologica 上,把 AI 模型套在瑞典全國登錄庫 6,036,186 名成人的資料上,用來預測 5 年內罹患黑色素瘤的風險。這 5 年研究期裡,38,582 人(世代的 0.64%)被確診為黑色素瘤,給了這個模型一個人群級規模的真實驗證集。檯面上的結果:最強的 AI 模型在「後來罹患 vs. 未罹患」這件事上,大約在 73% 的案例中分對了人,而只用「年齡 + 性別」的基線只做到 64%。絕對提升 9 個百分點,在幾百萬人的篩檢資源分配決策上,這是真有意義的差距。
讓模型跑起來的特徵值得專門拎出來說,因為這和大多數醫學影像類 AI 報導寫的不是一回事。這是用醫療檔案做結構化資料預測:既往診斷、處方用藥、社會人口學屬性。沒有影像輸入。模型本質上是一個跑在電子病歷資料上的大規模表格分類器,這和過去十年主導該領域的「基於影像的皮膚癌偵測」是兩種不同的技術問題。研究裡回報的那個具體臨床含義是:這個模型可以辨識出一個更小、更集中的高風險人群,他們在 5 年內罹患黑色素瘤的風險是 33%。讓一個小世代的風險濃度達到 33%,這就已經高到足以支撐對他們進行密集的追蹤篩檢,而這種篩檢在一般人群層面是經濟上撐不起來的。在多數國家的醫療體系裡,皮膚科篩檢都是被成本約束的;如果你能把被監測的人群縮小一個數量級,同時仍然抓住相當一部分病例,那這筆經濟帳就倒向「值得上線」。
這件事剛好卡進今年醫學 AI 工作裡一條值得命名的模式。科學側的 AI 正在變得有操作價值,方式不是把篩檢整個替換掉,而是「預測 + 選擇性介入」。類似的動力學在別處也反覆出現:AI 強化的低場 MRI 不取代高場 MRI,它讓便宜的硬體在一部分病例上產出診斷級影像。Google 的 MoGen 不取代專家手工追蹤神經元,它給資料標註流水線加了一層放大。這一次的黑色素瘤研究也不是在提議「全員 AI 篩檢」,而是在提議「用 AI 辨識出高風險子群」。它們的共同線索是:AI 在醫療裡之所以跑得動,不是因為它要整體取代醫療判斷,而是因為它是一層排序層,讓稀缺的臨床注意力用得更有效。做 health-tech 的打造者值得研究一下這套框架:真正要回答的問題不是「AI 能不能比得過皮膚科醫師」,而是「AI 能不能把應該首先被皮膚科醫師看的那一批病人辨識出來,而且便宜到可以在全國規模上落地」。這是兩種非常不同的產品問題。
對任何在做醫學 AI 預測工具的人,三條具體觀察。第一,相對於公共論述中對影像 AI 的關注,表格型 EHR 預測被嚴重低估;瑞典這項研究只是近來一連串「結構化病歷跑出超預期表現」中的一個例子。如果你做健康 AI 產品時把「影像是唯一可行的輸入」當預設假設,那這個假設八成是錯的。第二,真正該盯的指標不是頭條裡那個準確率數字,而是你能多準地辨識出高風險子世代,以及那個「濃縮因子」(你在保住敏感度的前提下,能把篩檢人群壓縮多少倍)。在瑞典這項研究裡,這個數字就是小高危子群 33% 的風險濃度;在你自家產品裡,它是你那個可操作子世代上對應的濃度。第三,作為「排序工具」走監管與部署路徑,比作為「診斷替代」走要容易得多。把你的產品定位為放大稀缺的臨床注意力,而不是取代它,審批對話會明顯縮短。
