Shelley Spence, auditora geral de Ontário, reportou esta semana que os 20 fornecedores de AI scribes médicos aprovados pelo governo produziram inexatidões durante o testing de aquisição — "alucinações (fabricação), informações incorretas, ou informações faltantes ou incompletas". Aproximadamente 5.000 médicos ontarianos estão desplegados nesses mesmos sistemas. O relatório não divulga nomes individuais de fornecedores nem exemplos concretos de erros. Stephen Crawford, Ministro de Serviços ao Público e às Empresas e de Aquisições, defendeu o desplegamento: as alucinações foram observadas "durante o testing regulatório, não no uso operacional real com médicos".

A distinção do Ministro importa e ao mesmo tempo não. Prompts de teste de aquisição são tipicamente desenhados para stress-testar edge cases — cenários sintéticos que sondam modos de falha — enquanto o uso operacional é sobretudo encontros rotineiros. Então "falha em aquisição, funciona na prática" é uma claim coerente. Mas o achado real do relatório é o sweep 20-de-20, não a taxa absoluta de erro: cada fornecedor aprovado para desplegamento clínico enviou um sistema que podia fabricar fatos médicos sob condições de auditoria. O writeup da Futurism não divulga quais eram essas condições, que fração de test cases falhou por fornecedor, ou como a barreira de aquisição ponderava exatidão contra outros critérios. Sem esses números, a notícia é o sweep, não a severidade.

AI scribes são uma das categorias de AI clínica que se desplega mais rápido — Nuance DAX, Abridge, Suki, DeepScribe, e uma dúzia de outros ocupam esse mercado — porque a economia de workflow é concreta e a tarefa do modelo (transcrever um encontro, estruturá-lo num template SOAP) mapeia limpamente nas forças dos LLM. O que esse relatório muda: a avaliação grau-aquisição é agora um modo de falha público. Outras províncias canadenses, sistemas hospitalares norte-americanos, e ministérios de saúde vão rodar auditorias similares e provavelmente produzir achados similares. Fornecedores vão responder com divulgação mais estrita de eval harness e dados de red-team. O caso OpenEvidence que a Futurism também referencia — escrutínio nos EUA sobre o sistema que superinterpreta conclusões de estudos pequenos — sugere que a pressão de auditoria vai se mover além dos scribes para ferramentas de resumo de pesquisa clínica em seguida.

Segunda-feira: se você constrói ou vende AI em workflows clínicos, espere um regime de avaliação pública nos próximos 12-24 meses — governos vão publicar resultados de testes de aquisição que nomeiam modos específicos de falha, e "mas funciona na prática" não vai parar a divulgação. Tenha seu harness, seu eval set, e seus artefatos de red-team prontos para compartilhar antes do órgão de aquisição pedir. Se você é médico usando AI scribes hoje, o relatório não te diz qual sistema largar — mas te diz qual pressuposto largar: que aprovação governamental implica que o fornecedor passa barreiras de exatidão no seu workflow real. Adicione seu próprio QA por cima.