Mitchell Katz, PDG de NYC Health and Hospitals — le plus grand système de santé publique américain avec 11 hôpitaux — a déclaré lors d'un panel de Crain's que son organisation pourrait « remplacer une grande partie des radiologues par l'IA dès maintenant, si nous sommes prêts à relever le défi réglementaire ». Katz a spécifiquement cité l'automatisation du dépistage du cancer du sein, gardant les radiologues en attente seulement quand l'IA signale des lectures anormales pour des « économies majeures ». Ceci survient quelques semaines après la plus grande grève d'infirmières de l'histoire de NYC.
Le moment ne pourrait pas être pire pour le battage médiatique de l'IA en radiologie. Une nouvelle recherche de Stanford révèle que les modèles d'IA de pointe peuvent réussir parfaitement les tests de référence médicaux sur les radiographies thoraciques sans jamais voir les images réelles — ce que les chercheurs appellent des « mirages d'IA ». Contrairement aux hallucinations typiques, ces mirages produisent des explications rationnelles et cohérentes pour des découvertes qui n'existent pas. Les modèles simulent tout le processus diagnostique sans être ancrés à rien, rendant les garde-fous d'hallucination standard inutiles.
Le radiologue Mohammed Suhail de North Coast Imaging a qualifié les commentaires de Katz de « preuve indéniable que les administrateurs d'hôpitaux confiants mais mal informés sont un danger pour les patients » et a averti que « toute tentative d'implémenter des lectures uniquement par IA résulterait immédiatement en des dommages et des décès de patients ». L'évaluation de Suhail s'aligne avec les découvertes de Stanford — les modèles de langage visuel demeurent fonctionnellement aveugles malgré qu'ils paraissent compétents sur les tests de référence.
Pour les développeurs qui construisent des outils d'IA médicale, c'est un signal d'alarme concernant la méthodologie d'évaluation. Si vos modèles peuvent réussir des tests sans voir les images, vos tests de référence sont défaillants. Les administrateurs de soins de santé qui magasinent des solutions d'IA doivent comprendre la différence entre la performance des tests de référence et la fiabilité du monde réel — surtout quand des vies sont en jeu.
