《華爾街日報》專欄作家 Joanna Stern 的新書《I Am Not a Robot》在 5 月 8 日的 NYT Hard Fork 播客上被討論,把一個 builder 賣臨床 workflow 時該 track 的牙科 AI 篩檢工具問題擺了出來。Pearl AI 把 Stern 的牙科掃描標記為需要四次牙周治療、花費數千美元;多位牙醫看同樣的影像後並不同意。被點名的廠商是 Pearl AI 和 Overjet,兩家都是牙科 X 光 AI 領域資金充足的 incumbent。Pearl 對牙醫的行銷說辭,被 Futurism 引用:使用其產品的診所「多發現 37% 的疾病,多向患者提供 24% 的治療」。
這個行銷 claim 才是從架構上有意思的部分,跟任何單一患者的經歷分開看。一個賣給營運方時用「營收上漲」做賣點 —— 「部署我們之後你能多開帳單」 —— 的 AI 產品,跟賣給營運方時用「準確性提升」做賣點 —— 「你的診斷會更準」 —— 的 AI 產品,本質上不是一回事。Pearl 的說辭把兩者揉在一起:37% 作為檢出率提升的 claim 出現,24% 作為帳單後果出現。如果部署資料在 out-of-sample 患者佇列、對照專家共識時撐得起那個檢出數字,帳單也跟著合理。如果那個檢出數字其實是 calibration 偏向 false positive,那帳單就是醫源性的。文章並沒浮出已發表的驗證研究、FDA-clearance 級別的對照閱片、或第三方審計資料,讓外部觀察者來判斷到底是哪一種。
把這條跟今早安省審計長的審計放一起看:20 家 AI scribe 廠商在採購測試中 20 家都出現不準確。兩個領域、兩種失敗模式 —— scribe 那邊是筆記捏造,影像這邊是診斷膨脹的可能 —— 但底下的 gap 是同一個:部署速度超過了第三方評估。牙科 AI 廠商目前還沒遇到安省對 scribe 那種省級審計級別的壓力;美國牙科市場以私人付款方為主,這會改變監管的槓桿。盯緊 FDA、各州牙醫委員會、以及大型牙科保險公司,這些機構等到足夠多的 Stern 級別個案累積之後,可能會發布它們自己的對照研究。
週一上手:如果你做或賣臨床 AI,「提升檢出」與「增加可計費操作」之間的那條線,是你的行銷文案不該模糊的那條 —— 不管牙科市場現在如何獎勵這種模糊。如果你是部署這些工具的牙醫,審計級別的問題不是廠商聲稱的提升數字是多少 —— 而是 second-reader 的人類牙醫是否同意 AI 的 flag,且同意率高於人類對同一組無 AI 影像的 inter-rater 一致性。這就是 harness;廠商有這個資料,或沒有。如果你在挑哪個臨床 AI 細分市場切入,牙科影像缺乏公開驗證資料,要麼是機會(做那個發布資料的廠商),要麼是警告(等別人發布的時候,這個細分市場可能會被重新定價)。
