《华尔街日报》专栏作家 Joanna Stern 的新书《I Am Not a Robot》在 5 月 8 日的 NYT Hard Fork 播客上被讨论,把一个 builder 卖临床 workflow 时该 track 的牙科 AI 筛查工具问题摆了出来。Pearl AI 把 Stern 的牙科扫描标记为需要四次牙周治疗、花费数千美元;多位牙医看同样的图像后并不同意。被点名的厂商是 Pearl AI 和 Overjet,两家都是牙科 X 光 AI 领域资金充足的 incumbent。Pearl 对牙医的营销话术,被 Futurism 引用:使用其产品的诊所"多发现 37% 的疾病,多向患者提供 24% 的治疗"。

这个营销 claim 才是从架构上有意思的部分,跟任何单个患者的经历分开看。一个卖给运营方时用"营收上涨"做卖点 —— "部署我们之后你能多开账单" —— 的 AI 产品,跟卖给运营方时用"准确性提升"做卖点 —— "你的诊断会更准" —— 的 AI 产品,本质上不是一回事。Pearl 的话术把两者揉在一起:37% 作为检出率提升的 claim 出现,24% 作为账单后果出现。如果部署数据在 out-of-sample 患者队列、对照专家共识时支撑得了那个检出数字,账单也跟着合理。如果那个检出数字其实是 calibration 偏向 false positive,那账单就是医源性的。文章并没浮出已发表的验证研究、FDA-clearance 级别的对照阅片、或第三方审计数据,让外部观察者来判断到底是哪种。

把这条跟今早安省审计长的审计放一起看:20 家 AI scribe 厂商在采购测试中 20 家都出现不准确。两个领域、两种失败模式 —— scribe 那边是笔记编造,影像这边是诊断膨胀的可能 —— 但底下的 gap 是同一个:部署速度超过了第三方评估。牙科 AI 厂商目前还没遇到安省对 scribe 那种省级审计级别的压力;美国牙科市场以私人付款方为主,这会改变监管的杠杆。盯紧 FDA、各州牙医委员会、以及大型牙科保险公司,这些机构等到足够多的 Stern 级别个案积累之后,可能会发布它们自己的对照研究。

周一上手:如果你做或卖临床 AI,"提升检出"与"增加可计费操作"之间的那条线,是你的营销文案不该模糊的那条 —— 不管牙科市场现在如何奖励这种模糊。如果你是部署这些工具的牙医,审计级别的问题不是厂商声称的提升数字是多少 —— 而是 second-reader 的人类牙医是否同意 AI 的 flag,且同意率高于人类对同一组无 AI 图像的 inter-rater 一致性。这就是 harness;厂商有这个数据,或没有。如果你在挑哪个临床 AI 细分市场切入,牙科影像缺乏公开验证数据,要么是机会(做那个发布数据的厂商),要么是警告(等别人发布的时候,这个细分市场可能会被重新定价)。