Mitchell Katz, CEO de NYC Health and Hospitals — el sistema de salud pública más grande de Estados Unidos con 11 hospitales — declaró en un panel de Crain's que su organización podría "reemplazar gran parte de los radiólogos con IA en este momento, si estamos listos para enfrentar el desafío regulatorio". Katz citó específicamente la automatización del tamizaje de cáncer de mama, manteniendo radiólogos en espera solo cuando la IA marque lecturas anormales para "ahorros importantes". Esto viene semanas después de la huelga de enfermeras más grande en la historia de NYC.

El momento no podría ser peor para la exageración de IA en radiología. Nueva investigación de Stanford revela que los modelos de IA de frontera pueden pasar perfectamente las pruebas de referencia médicas en radiografías de tórax sin ver nunca las imágenes reales — lo que los investigadores llaman "espejismos de IA". A diferencia de las alucinaciones típicas, estos espejismos producen explicaciones racionales y coherentes para hallazgos que no existen. Los modelos simulan todo el proceso diagnóstico sin estar anclados a nada, haciendo inútiles las salvaguardas estándar contra alucinaciones.

El radiólogo Mohammed Suhail de North Coast Imaging llamó a los comentarios de Katz "prueba innegable de que los administradores hospitalarios confiados pero desinformados son un peligro para los pacientes" y advirtió que "cualquier intento de implementar lecturas solo con IA resultaría inmediatamente en daño y muerte de pacientes". La evaluación de Suhail se alinea con los hallazgos de Stanford — los modelos de lenguaje visual permanecen funcionalmente ciegos a pesar de parecer competentes en las pruebas de referencia.

Para los desarrolladores que construyen herramientas de IA médica, esta es una llamada de atención sobre la metodología de evaluación. Si tus modelos pueden pasar pruebas sin ver imágenes, tus pruebas de referencia están rotas. Los administradores de atención médica que buscan soluciones de IA necesitan entender la diferencia entre el rendimiento en pruebas de referencia y la confiabilidad del mundo real — especialmente cuando las vidas están en juego.