Un nuevo estudio liderado por Stanford y publicado en Nature Medicine, con los autores principales Ethan Goh y Robert Gallo y los autores seniors Jonathan Chen en Stanford y Adam Rodman en Harvard, enfrentó a 70 médicos licenciados de EE.UU. contra un sistema GPT-4 personalizado en 254 viñetas de casos clínicos simulados. Los números destacados son sorprendentes: los médicos con sus herramientas de referencia convencionales obtuvieron 75% en diagnóstico y manejo, la IA usada como primera opinión los subió a 85%, la IA como segunda opinión los subió a 82%, y la IA trabajando sola obtuvo 87%. La apertura de los clínicos a usar la herramienta saltó del 91% antes del ensayo al 99% después. La cobertura está tratando esto como "los chatbots superan a los médicos". Lean en cambio la sección de metodología.

El estudio usó viñetas — descripciones estructuradas de casos escritas para fines de evaluación — no encuentros reales con pacientes. Los autores son explícitos sobre por qué: las viñetas son controlables, puntuables y reproducibles. También son, en sus propias palabras, "menos representativas de la práctica real". Una viñeta le da al modelo y al médico el mismo input de texto limpio, sin datos faltantes, sin afecto ambiguo del paciente, sin presión de tiempo, sin ruido de historia clínica, sin preguntas de seguimiento que tienen que hacerse en el momento correcto. El médico en el ensayo trabajaba con búsquedas en internet y referencias médicas pero no con el kit de herramientas real del médico, que incluye el examen físico, la relación longitudinal con el paciente y el flujo de trabajo que le permite al médico reconocer cuando algo no encaja de una forma que el texto no puede capturar. IA obteniendo 87% en una viñeta no es lo mismo que IA obteniendo 87% en una visita real de clínica, y los autores lo saben.

Leído junto al editorial de Nature Medicine publicado la misma semana, que argumentó que "la evidencia de que las herramientas de IA crean valor para pacientes, proveedores o sistemas de salud sigue siendo escasa" y llamó a la evaluación prospectiva contra benchmarks acordados, el paper de Goh-Rodman es exactamente el tipo de trabajo del que el editorial hablaba. Es riguroso, produce una señal direccional útil, y no establece el tipo de evidencia que justifica un despliegue clínico amplio. La subida del +9.9% en precisión con IA-como-primera-opinión es significativa como hipótesis a probar en un ensayo prospectivo del mundo real. Aún no es significativa como base para decirle a los sistemas hospitalarios que integren la herramienta. La tasa de fallo de sistema del 10% que los autores notan, el no-determinismo que notan, y la brecha entre la dificultad de viñetas y la dificultad de encuentros en vivo son todas razones por las que el próximo estudio tiene que verse diferente al actual.

Para desarrolladores trabajando en IA clínica, la lectura práctica es que este es el nivel de evidencia que el campo está produciendo actualmente — estudios de viñetas, victorias retrospectivas de benchmark y encuestas de apertura — y no es suficiente. El equipo de Stanford está haciendo trabajo de alta calidad, y sus resultados son un argumento creíble de que las segundas opiniones de LLM podrían mejorar la precisión diagnóstica en algunos flujos de trabajo. Lo que aún falta es el ensayo prospectivo que pone el mismo sistema en una clínica real, con pacientes reales, presión de tiempo real, integración real con el flujo de trabajo y una métrica de resultado real ligada a resultados de pacientes en lugar de puntuación de viñetas. Los editores de Nature Medicine tienen razón en que el campo ha estado declarando victoria antes de generar esa evidencia, y este estudio, a pesar de su diseño fuerte, es parte de la base de evidencia que aún es pre-despliegue. Las próximas rondas de estudios que importan son las que corren en hospitales reales, midiendo cambios reales en precisión diagnóstica y tiempo-hasta-diagnóstico-correcto en el punto de atención.