Gothenburg 大学与 Chalmers 理工大学的一项合作研究,本周发表在 Acta Dermato-Venereologica 上,把 AI 模型套在瑞典全国登记库 6,036,186 名成人的数据上,用来预测 5 年内罹患黑色素瘤的风险。这 5 年研究期里,38,582 人(队列的 0.64%)被确诊为黑色素瘤,给了这个模型一个人群级规模的真实验证集。台面上的结果:最强的 AI 模型在"后来罹患 vs. 未罹患"这件事上,大约在 73% 的案例中分对了人,而只用"年龄 + 性别"的基线只做到 64%。绝对提升 9 个百分点,在几百万人的筛查资源分配决策上,这是真有意义的差距。
让模型跑起来的特征值得专门拎出来说,因为这和大多数医学影像类 AI 报道写的不是一回事。这是用医疗档案做结构化数据预测:既往诊断、处方用药、社会人口学属性。没有图像输入。模型本质上是一个跑在电子病历数据上的大规模表格分类器,这和过去十年主导该领域的"基于图像的皮肤癌检测"是两种不同的技术问题。研究里报告的那个具体临床含义是:这个模型可以识别出一个更小、更集中的高风险人群,他们在 5 年内罹患黑色素瘤的风险是 33%。让一个小队列的风险浓度达到 33%,这就已经高到足以支撑对他们进行密集随访筛查,而这种筛查在一般人群层面是经济上撑不起来的。在多数国家的医保系统里,皮肤科筛查都是被成本约束的;如果你能把被监测的人群缩小一个数量级,同时仍然抓住相当一部分病例,那这笔经济账就倒向"值得上线"。
这件事刚好卡进今年医学 AI 工作里一条值得命名的模式。科学侧的 AI 正在变得有操作价值,方式不是把筛查整个替换掉,而是"预测 + 选择性干预"。类似动力学在别处也反复出现:AI 增强的低场 MRI 不替代高场 MRI,它让便宜的硬件在一部分病例上产出诊断级图像。Google 的 MoGen 不替代专家手工追踪神经元,它给数据标注流水线加了一层放大。这一次的黑色素瘤研究也不是在提议"全员 AI 筛查",而是在提议"用 AI 识别出高风险子群"。它们的共同线索是:AI 在医疗里之所以跑得动,不是因为它要整体替代医疗判断,而是因为它是一层排序层,让稀缺的临床注意力用得更有效。做 health-tech 的构建者值得研究一下这套框架:真正要回答的问题不是"AI 能不能比得过皮肤科医生",而是"AI 能不能把应该首先被皮肤科医生看的那一批病人识别出来,而且便宜到可以在全国规模上落地"。这是两种非常不同的产品问题。
对任何在做医学 AI 预测工具的人,三条具体观察。第一,相对于公共话语中对影像 AI 的关注,表格型 EHR 预测被严重低估;瑞典这项研究只是近来一连串"结构化病历跑出超预期表现"中的一个例子。如果你做健康 AI 产品时把"影像是唯一可行的输入"当默认假设,那这个假设八成是错的。第二,真正该盯的指标不是头条里那个准确率数字,而是你能多准地识别出高风险子队列,以及那个"浓缩因子"(你在保住敏感度的前提下,能把筛查人群压缩多少倍)。在瑞典这项研究里,这个数字就是小高危子群 33% 的风险浓度;在你自家产品里,它是你那个可操作子队列上对应的浓度。第三,作为"排序工具"走监管和部署路径,比作为"诊断替代"走要容易得多。把你的产品定位为放大稀缺临床注意力,而不是替代它,审批对话会明显缩短。
