A Nature Medicine publicou esta semana um editorial intitulado "Show us the evidence for the value of medical AI", e o enquadramento é mais duro do que a revista normalmente faz. Os editores argumentam que a evidência de que ferramentas de IA criam valor para pacientes, prestadores ou sistemas de saúde "permanece escassa" — o que significa que o campo está fazendo deploys mais rápido do que produz os dados de ensaio que os justificariam. As falhas específicas que catalogam não são as polidas. Um estudo da JAMA Medicine encontrou que modelos de IA de fronteira produzem diagnósticos incorretos mais de 80% das vezes quando apresentados com sintomas ambíguos — exatamente o caso em que o suporte à decisão deveria ajudar. Os modelos alucinam achados clínicos detalhados de imagens que nunca lhes foram mostradas. São rotineiramente enganados por doenças fabricadas que pesquisadores inventam especificamente para testá-los. Dados médicos imprecisos gerados por LLMs agora vazam na literatura revisada por pares.
O pedido central do editorial é procedural em vez de ideológico: um "framework para como tecnologias de IA médica devem ser avaliadas, por quais métricas e contra quais benchmarks". Isso soa burocrático mas é o ponto em que a maioria das alegações atuais de vendors de IA médica desmorona. Um modelo pode ter impressionante sensibilidade e especificidade em um conjunto de teste retido e ainda ser inútil ou prejudicial em deploy, porque o conjunto de teste não reflete o shift de distribuição, o fluxo de trabalho, ou a população que o sistema realmente encontra em produção. Sem um framework padronizado — o equivalente do caminho 510(k) da FDA ou dos requisitos de ensaio clínico da EMA adaptados para ML — vendors estão livres para publicar qualquer subconjunto favorável de métricas que quiserem e chamar de validado. Vários pesquisadores externos, incluindo Jamie Robertson na Harvard Medical School e Almira Osmanovic Thunström na Universidade de Gotemburgo, têm feito variantes desse argumento no último ano; o editorial é a literatura médica estabelecida se atualizando.
Os problemas técnicos por trás do editorial são reais e vale a pena nomeá-los claramente. Alucinação em ambientes clínicos é uma fera diferente de alucinação em ambientes de chatbot, porque o usuário é um clínico ocupado sob pressão de tempo e o custo de uma resposta confiantemente errada é medido em desfechos de pacientes, não satisfação do cliente. O modo de falha "enganado por doenças falsas" significa que os modelos fazem pattern matching em entradas que soam plausíveis sem guardrails epistêmicos — eles vão retornar um diagnóstico confiante para uma condição que não existe se a sintaxe de entrada parecer médica o suficiente. A taxa de erro de 80% em sintomas ambíguos é a falha que mais dói: apresentação ambígua é o caso em que humanos precisam de ajuda, e o caso em que o modelo é menos confiável. Diagnósticos fáceis não precisam de IA; difíceis expõem os limites reais da tecnologia.
Para desenvolvedores trabalhando em produtos de IA médica, o editorial é um aperto útil em vez de um sinal de pare. O caminho honesto à frente envolve três coisas que o campo tem evitado. Ensaios clínicos prospectivos, não vitórias retrospectivas em benchmark, são o que produz a evidência que reguladores e Nature Medicine estão pedindo. Avaliação integrada ao fluxo de trabalho — a ferramenta realmente muda o comportamento do clínico em produção, e essa mudança melhora os desfechos — é mais difícil que métricas offline mas é a única coisa que importa para a adoção. E estreitamento honesto de escopo: um modelo que faz triagem de imagens dermatológicas, validado e implantado para essa única tarefa, é mais útil e mais defensável do que um chatbot médico geral cujo orçamento de erro é ilimitado. O ciclo da IA médica vai consolidar em torno dos produtos que conseguem realmente passar nesses testes, e o editorial deixou claro que as revistas não estão mais dispostas a aplaudir os que não conseguem.
