安大略省审计长 Shelley Spence 本周报告:政府批准的 20 家 AI 医疗记录(AI scribe)厂商在采购测试期间全部出现不准确 ——「幻觉(捏造)、错误信息、或缺失/不完整的信息」。大约 5,000 名安省医生已部署在这些同一批系统上。报告没有披露单个厂商的名字或具体的错误样例。公共与商业服务交付暨采购厅长 Stephen Crawford 为推行辩护:这些幻觉是「在监管测试期间观察到的,不是医生实际运营使用中发生的」。

部长这个区分既重要也不重要。采购测试的 prompts 通常专门压测 edge case —— 探测失败模式的合成场景 —— 而运营使用大多是常规问诊。所以「采购阶段不过、实际能用」这个说法本身是 coherent 的。但报告真正的发现是 20 中 20 全部踩雷,不是绝对错误率:每一家被批准做临床部署的厂商,所交付的系统在审计条件下都能编造医学事实。Futurism 的写法里没披露:那些条件具体是什么、每家厂商测试用例的失败比例、采购门槛在准确性和其他指标之间是怎么加权的。没有这些数字,新闻就是这个 sweep 本身,而不是严重程度。

AI scribe 是部署速度最快的临床 AI 类别之一 —— Nuance DAX、Abridge、Suki、DeepScribe,还有十几家在这个市场上 —— 因为 workflow 节省很具体,而模型任务(转录一次问诊、把它结构化成 SOAP 模板的笔记)很干净地映射到 LLM 的强项。这份报告改变了什么:采购级评估现在是一个公开的失败模式。其他加拿大省份、美国医院系统、各地卫生部门会跑类似的审计,大概率得出类似的发现。厂商会以更严格的 eval harness 披露和 red-team 数据来回应。Futurism 同时援引的 OpenEvidence 案例 —— 美国对该系统从小样本研究中过度引申结论的审查 —— 暗示审计压力下一步会从 scribe 走向临床研究摘要类工具。

周一上手:如果你在为临床 workflow 做或卖 AI,做好准备:未来 12-24 个月会出现公开评估机制 —— 政府会公开采购测试结果,具名指出具体失败模式,「但是它在实际用着没事」并不会阻止这种披露。把你的 harness、eval set、red-team artifacts 提前准备好,等采购机构来要的时候就能交。如果你是今天在用 AI scribe 的医生,报告并不告诉你该弃用哪一家 —— 但它告诉你该弃用哪个假设:政府批准等于厂商在真实 workflow 里过准确性关。在系统之上再加你自己的 QA。