Une nouvelle étude menée à Stanford pis publiée dans Nature Medicine, avec les premiers auteurs Ethan Goh pis Robert Gallo pis les auteurs séniors Jonathan Chen à Stanford pis Adam Rodman à Harvard, a fait s'affronter 70 médecins licenciés aux États-Unis contre un système GPT-4 personnalisé sur 254 vignettes de cas cliniques simulés. Les chiffres vedettes sont frappants : les médecins avec leurs outils de référence conventionnels ont marqué 75 % en diagnostic pis gestion, l'IA utilisée comme première opinion les a montés à 85 %, l'IA comme deuxième opinion les a montés à 82 %, pis l'IA travaillant seule a marqué 87 %. L'ouverture des cliniciens à utiliser l'outil a sauté de 91 % avant l'essai à 99 % après. La couverture traite ça comme « les chatbots dépassent les médecins ». Lisez plutôt la section méthodologie.
L'étude a utilisé des vignettes — descriptions de cas structurées écrites à des fins d'évaluation — pas des rencontres patients réelles. Les auteurs sont explicites sur pourquoi : les vignettes sont contrôlables, notables pis reproductibles. Elles sont aussi, dans leurs propres mots, « moins représentatives de la pratique réelle ». Une vignette donne au modèle pis au médecin le même input texte propre, pas de données manquantes, pas d'affect patient ambigu, pas de pression temporelle, pas de bruit de dossier, pas de questions de suivi qui doivent être posées au bon moment. Le médecin dans l'essai travaillait avec des recherches Internet pis des références médicales mais pas avec la vraie boîte à outils du médecin, qui inclut l'examen physique, la relation longitudinale avec le patient pis le workflow qui permet au médecin de reconnaître quand quelque chose cloche d'une façon que le texte peut pas capturer. L'IA qui obtient 87 % sur une vignette, c'est pas la même affaire que l'IA qui obtient 87 % sur une vraie visite à la clinique, pis les auteurs le savent.
Lu à côté de l'éditorial de Nature Medicine publié la même semaine, qui soutenait que « la preuve que les outils IA créent de la valeur pour les patients, fournisseurs ou systèmes de santé reste rare » pis appelait à une évaluation prospective contre des benchmarks convenus, l'article Goh-Rodman, c'est exactement le type de travail dont l'éditorial parlait. C'est rigoureux, ça produit un signal directionnel utile, pis ça établit pas le genre de preuve qui justifie un déploiement clinique large. La hausse de +9,9 % de précision avec l'IA comme première opinion est significative comme hypothèse à tester dans un essai prospectif en monde réel. C'est pas encore significatif comme base pour dire aux systèmes hospitaliers d'intégrer l'outil. Le taux d'échec système de 10 % que les auteurs notent, le non-déterminisme qu'ils notent pis l'écart entre la difficulté des vignettes pis la difficulté des rencontres en direct, c'est toutes des raisons pour lesquelles la prochaine étude doit avoir l'air différente de celle-ci.
Pour les développeurs qui travaillent sur l'IA clinique, la lecture pratique, c'est que c'est le niveau de preuve que le domaine produit présentement — études de vignettes, victoires de benchmark rétrospectives pis sondages d'ouverture — pis c'est pas assez. L'équipe de Stanford fait du travail de haute qualité, pis leurs résultats sont un argument crédible que les deuxièmes opinions LLM pourraient améliorer la précision diagnostique dans certains workflows. Ce qui manque encore, c'est l'essai prospectif qui met le même système dans une vraie clinique, avec des vrais patients, vraie pression temporelle, vraie intégration au workflow pis une vraie métrique de résultats liée aux résultats patients plutôt qu'au scoring de vignettes. Les éditeurs de Nature Medicine ont raison que le domaine a déclaré victoire avant de générer cette preuve, pis cette étude, malgré son design solide, fait partie de la base de preuves qui est encore pré-déploiement. Les prochaines études qui comptent, ce sont celles qui roulent dans de vrais hôpitaux, qui mesurent de vrais changements en précision diagnostique pis temps-jusqu'au-bon-diagnostic au point de soin.
