瑞典 600 万人规模研究：AI 把黑色素瘤 5 年前的风险识别率拉到 73%，打开了人群级选择性筛查的门

Gothenburg 大学与 Chalmers 理工大学的一项合作研究，本周发表在 Acta Dermato-Venereologica 上，把 AI 模型套在瑞典全国登记库 6,036,186 名成人的数据上，用来预测 5 年内罹患黑色素瘤的风险。这 5 年研究期里，38,582 人（队列的 0.64%）被确诊为黑色素瘤，给了这个模型一个人群级规模的真实验证集。台面上的结果：最强的 AI 模型在"后来罹患 vs. 未罹患"这件事上，大约在 73% 的案例中分对了人，而只用"年龄 + 性别"的基线只做到 64%。绝对提升 9 个百分点，在几百万人的筛查资源分配决策上，这是真有意义的差距。

让模型跑起来的特征值得专门拎出来说，因为这和大多数医学影像类 AI 报道写的不是一回事。这是用医疗档案做结构化数据预测：既往诊断、处方用药、社会人口学属性。没有图像输入。模型本质上是一个跑在电子病历数据上的大规模表格分类器，这和过去十年主导该领域的"基于图像的皮肤癌检测"是两种不同的技术问题。研究里报告的那个具体临床含义是：这个模型可以识别出一个更小、更集中的高风险人群，他们在 5 年内罹患黑色素瘤的风险是 33%。让一个小队列的风险浓度达到 33%，这就已经高到足以支撑对他们进行密集随访筛查，而这种筛查在一般人群层面是经济上撑不起来的。在多数国家的医保系统里，皮肤科筛查都是被成本约束的；如果你能把被监测的人群缩小一个数量级，同时仍然抓住相当一部分病例，那这笔经济账就倒向"值得上线"。

这件事刚好卡进今年医学 AI 工作里一条值得命名的模式。科学侧的 AI 正在变得有操作价值，方式不是把筛查整个替换掉，而是"预测 + 选择性干预"。类似动力学在别处也反复出现：AI 增强的低场 MRI 不替代高场 MRI，它让便宜的硬件在一部分病例上产出诊断级图像。Google 的 MoGen 不替代专家手工追踪神经元，它给数据标注流水线加了一层放大。这一次的黑色素瘤研究也不是在提议"全员 AI 筛查"，而是在提议"用 AI 识别出高风险子群"。它们的共同线索是：AI 在医疗里之所以跑得动，不是因为它要整体替代医疗判断，而是因为它是一层排序层，让稀缺的临床注意力用得更有效。做 health-tech 的构建者值得研究一下这套框架：真正要回答的问题不是"AI 能不能比得过皮肤科医生"，而是"AI 能不能把应该首先被皮肤科医生看的那一批病人识别出来，而且便宜到可以在全国规模上落地"。这是两种非常不同的产品问题。

对任何在做医学 AI 预测工具的人，三条具体观察。第一，相对于公共话语中对影像 AI 的关注，表格型 EHR 预测被严重低估；瑞典这项研究只是近来一连串"结构化病历跑出超预期表现"中的一个例子。如果你做健康 AI 产品时把"影像是唯一可行的输入"当默认假设，那这个假设八成是错的。第二，真正该盯的指标不是头条里那个准确率数字，而是你能多准地识别出高风险子队列，以及那个"浓缩因子"（你在保住敏感度的前提下，能把筛查人群压缩多少倍）。在瑞典这项研究里，这个数字就是小高危子群 33% 的风险浓度；在你自家产品里，它是你那个可操作子队列上对应的浓度。第三，作为"排序工具"走监管和部署路径，比作为"诊断替代"走要容易得多。把你的产品定位为放大稀缺临床注意力，而不是替代它，审批对话会明显缩短。

瑞典 600 万人规模研究：AI 把黑色素瘤 5 年前的风险识别率拉到 73%，打开了人群级选择性筛查的门

更多新闻