Une nouvelle étude Harvard / Beth Israel publiée dans Science a mesuré le o1 d'OpenAI contre des médecins attendings sur des diagnostics réels en salle d'urgence, et o1 est ressorti devant. Soixante-seize patients, deux attendings en comparaison, deux autres en panel d'aveugle pour le ground truth. o1 a atteint 67 % d'accuracy diagnostique au triage; les médecins comparés ont scoré 55 % et 50 %. Le modèle a reçu les mêmes données EMR que les médecins avaient au moment du diagnostic — pas prétraitées, pas curées, pas des vignettes résumées par des experts.
Le setup, c'est la partie qui compte. La plupart des manchettes « l'IA bat les médecins » roulent sur des vignettes de cas synthétiques, des problèmes de board exam, ou des cas publiés que les éditeurs ont déjà nettoyés. Cette étude a utilisé des dossiers d'arrivée réels aux urgences de Beth Israel avec la même information disponible au moment où un médecin regardait un patient. Le ground truth est venu d'un panel en aveugle — deux attendings évaluateurs qui ne savaient pas quels diagnostics venaient des médecins humains et lesquels venaient d'o1. Les auteurs principaux sont Arjun Manrai (Harvard Medical School) et Adam Rodman (Beth Israel Deaconess). Le modèle testé était o1, pas o3 ni GPT-5 ni Claude Sonnet 4.5; le résultat est déjà conservateur face aux modèles de raisonnement frontières actuels. Les chercheurs étaient explicites sur les limitations : modèles fondations testés seulement sur du texte, « plus limités à raisonner sur des entrées non-textuelles », et pas prêts pour des décisions de vie-ou-de-mort sans essais prospectifs.
Le signal écosystémique n'est pas « l'IA est meilleure que les médecins ». C'est qu'on a maintenant une méthodologie d'éval assez crédible pour que la question cesse d'être « le modèle peut-il faire ça en benchmarks » et devienne « quel est le chemin de déploiement ». Rodman a pointé la vraie lacune : il y a « pas de cadre formel en ce moment pour la reddition de comptes » quand un diagnostic suggéré par IA est faux. C'est la pièce porteuse manquante. Le modèle est assez bon pour être utile comme deuxième opinion. L'infrastructure pour qui est responsable quand la deuxième opinion est fausse, qui l'audite, comment c'est loggé, qui paie la prime de malpractice — rien de tout ça n'existe. Anthropic, OpenAI et les couches AWS GovCloud / Vertex Healthcare vendent tous le côté modèle; le stack de reddition de comptes reste un vide réglementaire.
Si tu livres du tooling IA médical, cette étude, c'est la barre d'éval à dépasser : cas réels, panel en aveugle, mêmes données que l'humain avait. Si tu n'es pas à cette barre, ton claim « surpasse les médecins » c'est du benchmarketing. Si tu es un dev qui surveille l'écosystème, la question ouverte à suivre, ce n'est pas l'accuracy du modèle — c'est le cadre de reddition de comptes. Quiconque livre un déploiement d'IA diagnostique auditable en premier (raisonnement loggé, données d'entraînement traçables, produit d'assurance prêt pour la malpractice) bâtit une douve que les labos modèles seuls ne peuvent pas. La preuve clinique est maintenant en avance sur l'infrastructure réglementaire. Ce gap-là, c'est les dix-huit prochains mois de l'IA médicale.
