Ontario auditor general Shelley Spence ने इस हफ्ते report किया कि सरकार द्वारा approved सभी 20 AI medical scribe vendors ने procurement testing के दौरान inaccuracies produce कीं — "hallucinations (fabrication), incorrect information, या missing या incomplete information." लगभग 5,000 Ontario physicians इन्हीं systems पर deployed हैं। Audit individual vendor names या concrete error examples disclose नहीं करता। Stephen Crawford, Minister of Public and Business Service Delivery and Procurement, ने rollout का defense किया: hallucinations "regulatory testing के दौरान" observed हुईं, "actually operational use में doctors के साथ नहीं।"

Minister का distinction matter करता है और साथ ही नहीं भी। Procurement test prompts typically edge cases को stress-test करने के लिए design किए जाते हैं — synthetic scenarios जो failure modes को probe करते हैं — जबकि operational use ज़्यादातर routine encounters होता है। तो "procurement में fail, practice में काम" एक coherent claim है। लेकिन audit की actual finding 20-में-20 का sweep है, absolute error rate नहीं: clinical deployment के लिए approve किया गया हर vendor ने एक system ship किया जो audit conditions के तहत medical facts fabricate कर सकता था। Futurism writeup यह disclose नहीं करता कि वो conditions क्या थीं, per vendor कितने fraction test cases fail हुए, या procurement gate ने accuracy को बाकी criteria के against कैसे weight किया। उन numbers के बिना, news sweep है, severity नहीं।

AI scribes सबसे fast deploying clinical AI categories में से एक हैं — Nuance DAX, Abridge, Suki, DeepScribe, और एक दर्जन और इस market पर हैं — क्योंकि workflow saving concrete है और model task (एक encounter transcribe करना, उसे known-template SOAP note में structure करना) LLM strengths पर साफ़ map होता है। यह audit क्या बदलता है: procurement-grade evaluation अब एक public failure mode है। दूसरे Canadian provinces, US hospital systems, और ministries of health similar audits run करेंगे और likely similar findings produce करेंगे। Vendors stricter eval-harness disclosure और red-team data के साथ respond करेंगे। OpenEvidence case जो Futurism भी reference करता है — small studies से conclusions overstate करने पर US scrutiny — suggest करता है कि audit pressure scribes से आगे clinical research summarization tools तक move होगी।

सोमवार: अगर आप clinical workflows में AI build कर रहे हो या बेच रहे हो, अगले 12-24 महीनों में public-evaluation regime expect करो — सरकारें procurement test results publish करेंगी जो specific failure modes को name करेंगे, और "लेकिन यह practice में काम करता है" disclosure रोक नहीं पाएगा। अपना harness, अपना eval set, और अपने red-team artifacts share करने को तैयार रखो procurement body मांगने से पहले। अगर आप आज AI scribes use कर रहे physician हो, audit आपको यह नहीं बताता कि कौन सा system drop करना है — लेकिन यह बताता है कि कौन सी assumption drop करनी है: कि government approval का मतलब है vendor real workflow में accuracy bars pass करता है। अपना खुद का QA ऊपर add करो।