Um novo estudo liderado por Stanford e publicado na Nature Medicine, com autores principais Ethan Goh e Robert Gallo e autores seniores Jonathan Chen em Stanford e Adam Rodman em Harvard, colocou 70 médicos licenciados nos EUA contra um sistema GPT-4 customizado em 254 vinhetas de casos clínicos simulados. Os números de manchete são impressionantes: médicos com suas ferramentas de referência convencionais marcaram 75% em diagnóstico e manejo, IA usada como primeira opinião os elevou a 85%, IA como segunda opinião os elevou a 82%, e IA trabalhando sozinha marcou 87%. A abertura dos clínicos para usar a ferramenta saltou de 91% antes do ensaio para 99% depois. A cobertura está tratando isso como "chatbots superam médicos". Leiam a seção de metodologia em vez disso.
O estudo usou vinhetas — descrições estruturadas de casos escritas para fins de avaliação — não encontros reais com pacientes. Os autores são explícitos sobre o porquê: vinhetas são controláveis, pontuáveis e reproduzíveis. Elas são também, nas próprias palavras deles, "menos representativas da prática real". Uma vinheta dá ao modelo e ao médico o mesmo input de texto limpo, sem dados faltantes, sem afeto ambíguo do paciente, sem pressão de tempo, sem ruído de prontuário, sem perguntas de acompanhamento que têm que ser feitas no momento certo. O médico no ensaio estava trabalhando com buscas na internet e referências médicas mas não com o conjunto real de ferramentas do médico, que inclui o exame físico, a relação longitudinal com o paciente e o fluxo de trabalho que permite ao médico reconhecer quando algo não está certo de uma forma que o texto não pode capturar. IA conseguindo 87% em uma vinheta não é a mesma coisa que IA conseguindo 87% em uma visita real de clínica, e os autores sabem disso.
Lido ao lado do editorial da Nature Medicine publicado na mesma semana, que argumentou que "a evidência de que ferramentas de IA criam valor para pacientes, prestadores ou sistemas de saúde permanece escassa" e clamou por avaliação prospectiva contra benchmarks acordados, o paper Goh-Rodman é exatamente o tipo de trabalho do qual o editorial estava falando. É rigoroso, produz um sinal direcional útil, e não estabelece o tipo de evidência que justifica deployment clínico amplo. A subida de +9,9% em precisão com IA-como-primeira-opinião é significativa como hipótese a testar em um ensaio prospectivo do mundo real. Não é ainda significativa como base para dizer a sistemas hospitalares que integrem a ferramenta. A taxa de falha de sistema de 10% que os autores notam, o não-determinismo que notam, e a lacuna entre dificuldade de vinheta e dificuldade de encontro ao vivo são todas razões pelas quais o próximo estudo tem que parecer diferente deste.
Para desenvolvedores trabalhando em IA clínica, a leitura prática é que esse é o nível de evidência que o campo está produzindo atualmente — estudos de vinhetas, vitórias retrospectivas em benchmark e pesquisas de abertura — e não é suficiente. O time de Stanford está fazendo trabalho de alta qualidade, e seus resultados são um argumento crível de que segundas opiniões de LLM poderiam melhorar a precisão diagnóstica em alguns fluxos de trabalho. O que ainda falta é o ensaio prospectivo que coloca o mesmo sistema em uma clínica real, com pacientes reais, pressão de tempo real, integração real com o fluxo de trabalho e uma métrica de desfecho real ligada a desfechos de pacientes em vez de pontuação de vinhetas. Os editores da Nature Medicine estão certos de que o campo tem declarado vitória antes de gerar essa evidência, e esse estudo, apesar de seu design forte, faz parte da base de evidência que ainda é pré-deployment. A próxima rodada de estudos que importam são os que rodam em hospitais reais, medindo mudanças reais em precisão diagnóstica e tempo-até-diagnóstico-correto no ponto de atendimento.
