安大略省審計長 Shelley Spence 本週報告:政府批准的 20 家 AI 醫療紀錄(AI scribe)廠商在採購測試期間全部出現不準確 ——「幻覺(捏造)、錯誤訊息、或缺失/不完整的訊息」。大約 5,000 名安省醫生已部署在這些同一批系統上。報告沒有披露單一廠商的名字或具體的錯誤樣例。公共與商業服務交付暨採購廳長 Stephen Crawford 為推行辯護:這些幻覺是「在監管測試期間觀察到的,不是醫生實際營運使用中發生的」。

部長這個區分既重要也不重要。採購測試的 prompts 通常專門壓測 edge case —— 探測失敗模式的合成情境 —— 而營運使用大多是常規問診。所以「採購階段不過、實際能用」這個說法本身是 coherent 的。但報告真正的發現是 20 中 20 全部踩雷,不是絕對錯誤率:每一家被批准做臨床部署的廠商,所交付的系統在審計條件下都能捏造醫學事實。Futurism 的寫法裡沒披露:那些條件具體是什麼、每家廠商測試用例的失敗比例、採購門檻在準確性和其他指標之間是怎麼加權的。沒有這些數字,新聞就是這個 sweep 本身,而不是嚴重程度。

AI scribe 是部署速度最快的臨床 AI 類別之一 —— Nuance DAX、Abridge、Suki、DeepScribe,還有十幾家在這個市場上 —— 因為 workflow 節省很具體,而模型任務(轉錄一次問診、把它結構化成 SOAP 模板的筆記)很乾淨地映射到 LLM 的強項。這份報告改變了什麼:採購級評估現在是一個公開的失敗模式。其他加拿大省份、美國醫院系統、各地衛生部門會跑類似的審計,大概率得出類似的發現。廠商會以更嚴格的 eval harness 披露和 red-team 資料來回應。Futurism 同時援引的 OpenEvidence 案例 —— 美國對該系統從小樣本研究中過度引申結論的審查 —— 暗示審計壓力下一步會從 scribe 走向臨床研究摘要類工具。

週一上手:如果你在為臨床 workflow 做或賣 AI,做好準備:未來 12-24 個月會出現公開評估機制 —— 政府會公開採購測試結果,具名指出具體失敗模式,「但是它在實際用著沒事」並不會阻止這種披露。把你的 harness、eval set、red-team artifacts 提前準備好,等採購機構來要的時候就能交。如果你是今天在用 AI scribe 的醫生,報告並不告訴你該棄用哪一家 —— 但它告訴你該棄用哪個假設:政府批准等於廠商在真實 workflow 裡過準確性關。在系統之上再加你自己的 QA。