Shelley Spence, vérificatrice générale de l'Ontario, a rapporté cette semaine que les 20 fournisseurs d'AI scribes médicaux approuvés par le gouvernement ont tous produit des inexactitudes pendant le testing d'approvisionnement — « hallucinations (fabrication), informations incorrectes, ou informations manquantes ou incomplètes ». Environ 5 000 médecins ontariens sont déployés sur ces mêmes systèmes. Le rapport ne divulgue pas les noms de fournisseurs individuels ni d'exemples concrets d'erreurs. Stephen Crawford, ministre des Services au public et aux entreprises et de l'Approvisionnement, a défendu le déploiement : les hallucinations ont été observées « pendant le testing réglementaire, pas réellement dans l'usage opérationnel avec les médecins ».
La distinction du ministre compte et en même temps non. Les prompts de test d'approvisionnement sont typiquement conçus pour stress-tester des edge cases — des scénarios synthétiques qui probent les modes de défaillance — alors que l'usage opérationnel, c'est surtout des rencontres routinières. Donc « fail en approvisionnement, marche en pratique » est une claim cohérente. Mais la vraie finding du rapport, c'est le sweep 20-sur-20, pas le taux d'erreur absolu : chaque fournisseur approuvé pour déploiement clinique a shippé un système qui pouvait fabriquer des faits médicaux sous conditions d'audit. Le writeup de Futurism ne divulgue pas quelles étaient ces conditions, quelle fraction de test cases a échoué par fournisseur, ni comment la barrière d'approvisionnement pondérait l'exactitude par rapport aux autres critères. Sans ces chiffres, la news c'est le sweep, pas la sévérité.
Les AI scribes, c'est une des catégories d'AI clinique qui se déploie le plus vite — Nuance DAX, Abridge, Suki, DeepScribe, et une douzaine d'autres occupent ce marché — parce que l'économie de workflow est concrète et la tâche du modèle (transcrire une rencontre, la structurer dans une template de note SOAP) maps proprement sur les forces des LLM. Ce que ce rapport change : l'évaluation grade-approvisionnement est désormais un mode de défaillance public. D'autres provinces canadiennes, des systèmes hospitaliers américains, et des ministères de la santé vont rouler des audits semblables et probablement produire des findings semblables. Les fournisseurs vont réagir avec divulgation plus stricte des eval harness et de la red-team data. Le cas OpenEvidence que Futurism mentionne aussi — le scrutin américain sur le système qui surinterprète les conclusions d'études petites — suggère que la pression d'audit va dépasser les scribes pour atteindre les outils de résumé de recherche clinique ensuite.
Lundi matin : si tu bâtis ou tu vends de l'AI dans des workflows cliniques, attends-toi à un régime d'évaluation publique sur les 12-24 prochains mois — les gouvernements vont publier des résultats de tests d'approvisionnement qui nomment des modes de défaillance spécifiques, et « mais ça marche en pratique » va pas arrêter la divulgation. Aie ton harness, ton eval set, et tes artefacts red-team prêts à partager avant que le corps d'approvisionnement demande. Si t'es médecin qui utilise des AI scribes aujourd'hui, le rapport te dit pas quel système dropper — mais il te dit quelle hypothèse dropper : que l'approbation gouvernementale implique que le fournisseur passe les barrières d'exactitude dans son workflow réel. Ajoute ta propre QA par-dessus.
