Shelley Spence, auditora general de Ontario, reportó esta semana que los 20 proveedores de AI scribes médicos aprobados por el gobierno produjeron inexactitudes durante el testing de adquisición — "alucinaciones (fabricación), información incorrecta, o información faltante o incompleta". Aproximadamente 5,000 médicos ontarianos están desplegados sobre estos mismos sistemas. El reporte no divulga nombres de proveedores individuales ni ejemplos concretos de errores. Stephen Crawford, Ministro de Servicios al Público y a las Empresas y Adquisiciones, defendió el despliegue: las alucinaciones se observaron "durante el testing regulatorio, no en el uso operacional real con médicos".
La distinción del Ministro importa y a la vez no. Los prompts de test de adquisición están típicamente diseñados para stress-testear edge cases — escenarios sintéticos que sondean modos de falla — mientras que el uso operacional son sobre todo encuentros rutinarios. Así que "falla en adquisición, funciona en práctica" es una claim coherente. Pero el hallazgo real del reporte es el sweep 20-de-20, no la tasa absoluta de error: cada proveedor aprobado para despliegue clínico envió un sistema que podía fabricar hechos médicos bajo condiciones de auditoría. El writeup de Futurism no divulga cuáles eran esas condiciones, qué fracción de test cases falló por proveedor, ni cómo la barrera de adquisición ponderaba la exactitud frente a otros criterios. Sin esos números, la noticia es el sweep, no la severidad.
Los AI scribes son una de las categorías de AI clínica que se despliega más rápido — Nuance DAX, Abridge, Suki, DeepScribe, y una docena más ocupan este mercado — porque el ahorro de workflow es concreto y la tarea del modelo (transcribir un encuentro, estructurarlo en una plantilla SOAP) mapea limpiamente a las fortalezas de los LLM. Lo que cambia este reporte: la evaluación grado-adquisición es ahora un modo de falla público. Otras provincias canadienses, sistemas hospitalarios estadounidenses, y ministerios de salud van a correr auditorías similares y probablemente producir hallazgos similares. Los proveedores responderán con divulgación más estricta de eval harness y datos de red-team. El caso OpenEvidence que Futurism también referencia — el escrutinio estadounidense sobre el sistema que sobreinterpreta conclusiones de estudios pequeños — sugiere que la presión de auditoría se moverá más allá de los scribes a herramientas de resumen de investigación clínica luego.
Lunes: si construyes o vendes AI en workflows clínicos, espera un régimen de evaluación pública en los próximos 12-24 meses — los gobiernos publicarán resultados de tests de adquisición que nombran modos específicos de falla, y "pero funciona en práctica" no detendrá la divulgación. Ten tu harness, tu eval set, y tus artefactos red-team listos para compartir antes de que el cuerpo de adquisiciones pida. Si eres médico usando AI scribes hoy, el reporte no te dice cuál sistema dejar — pero te dice qué supuesto dejar: que la aprobación gubernamental implica que el proveedor pasa barreras de exactitud en su workflow real. Añade tu propio QA encima.
