Nature Medicine publicó esta semana un editorial titulado "Show us the evidence for the value of medical AI", y el encuadre es más duro de lo que la revista usualmente plantea. Los editores argumentan que la evidencia de que las herramientas de IA crean valor para pacientes, proveedores o sistemas de salud "sigue siendo escasa" — lo que significa que el campo está enviando despliegues más rápido de lo que produce los datos de ensayo que los justificarían. Los fallos específicos que catalogan no son los corteses. Un estudio de JAMA Medicine encontró que los modelos de IA frontera producen diagnósticos incorrectos más del 80% del tiempo cuando se les presenta con síntomas ambiguos — exactamente el caso donde el soporte a decisiones se supone que ayuda. Los modelos alucinan hallazgos clínicos detallados de imágenes que nunca les mostraron. Son rutinariamente engañados por enfermedades fabricadas que los investigadores inventan específicamente para probarlos. Datos médicos inexactos generados por LLMs ahora se filtran en la literatura revisada por pares misma.

La petición central del editorial es procedimental en lugar de ideológica: un "marco para cómo las tecnologías de IA médica deberían ser evaluadas, por qué métricas y contra qué benchmarks". Eso suena burocrático pero es el punto donde la mayoría de las afirmaciones actuales de vendors de IA médica se desmoronan. Un modelo puede tener impresionante sensibilidad y especificidad en un set de prueba reservado y aún así ser inútil o dañino en despliegue, porque el set de prueba no refleja el shift de distribución, el flujo de trabajo, o la población que el sistema realmente encuentra en producción. Sin un marco estandarizado — el equivalente de la vía 510(k) de la FDA o los requisitos de ensayos clínicos de la EMA adaptados para ML — los vendors son libres de publicar cualquier subconjunto favorable de métricas que quieran y llamarlo validado. Varios investigadores externos, incluyendo a Jamie Robertson en Harvard Medical School y Almira Osmanovic Thunström en la Universidad de Gotemburgo, han estado haciendo variantes de este argumento durante el último año; el editorial es la literatura médica establecida poniéndose al día.

Los problemas técnicos detrás del editorial son reales y vale la pena nombrarlos claramente. La alucinación en entornos clínicos es una bestia diferente que la alucinación en entornos de chatbot, porque el usuario es un clínico ocupado bajo presión de tiempo y el costo de una respuesta confiadamente equivocada se mide en resultados de pacientes, no en satisfacción del cliente. El modo de fallo de "engañado por enfermedades falsas" significa que los modelos hacen pattern matching sobre entradas que suenan plausibles sin barreras epistémicas — devolverán un diagnóstico confiado para una condición que no existe si la sintaxis de entrada se ve suficientemente médica. La tasa de fallo del 80% en síntomas ambiguos es el fallo que más duele: la presentación ambigua es el caso donde los humanos necesitan ayuda, y el caso donde el modelo es menos confiable. Los diagnósticos fáciles no necesitan IA; los difíciles exponen los límites reales de la tecnología.

Para desarrolladores trabajando en productos de IA médica, el editorial es un apriete útil en lugar de una señal de stop. El camino honesto hacia adelante implica tres cosas que el campo ha estado evitando. Ensayos clínicos prospectivos, no victorias de benchmark retrospectivas, son lo que produce la evidencia que reguladores y Nature Medicine están pidiendo. Evaluación integrada al flujo de trabajo — ¿la herramienta realmente cambia el comportamiento del clínico en producción, y ese cambio mejora los resultados? — es más difícil que las métricas offline pero es lo único que importa para la adopción. Y reducción honesta de alcance: un modelo que triage imágenes dermatológicas, validado y desplegado para esa única tarea, es más útil y más defendible que un chatbot médico general cuyo presupuesto de error es ilimitado. El ciclo de IA médica va a consolidarse alrededor de los productos que realmente puedan pasar estas pruebas, y el editorial dejó claro que las revistas ya no están dispuestas a aplaudir a los que no pueden.