Des chercheurs du Boston Children's Hospital et de Harvard, en collaboration avec OpenAI, rapportent dans la revue evaluee par les pairs NEJM AI que le modele o3 de l'entreprise a aide a clarifier 18 nouveaux diagnostics pour des enfants dont les maladies rares etaient restees sans reponse. Contrairement a la plupart des annonces d'IA medicale de la semaine, celle-ci arrive avec de vrais patients, de vrais diagnostics et une evaluation par les pairs derriere elle.
L'equipe a passe o3 sur plusieurs centaines de genomes de patients qui avaient passe des annees sans reponse, en l'utilisant comme ce que l'hopital appelle un genericien copilote, un systeme qui rassemble les donnees genetiques, le phenotype clinique du patient et la litterature medicale mondiale pour faire emerger des explications candidates qu'un genericien humain evalue ensuite. Sur cet ensemble, il a produit de nouveaux diagnostics pour pres de 5 pour cent des cas, 18 dans l'etude, et l'hopital affirme que son effort plus large de copilote a maintenant contribue a plus de 40 diagnostics jadis juges impossibles.
Pour les familles touchees par une maladie rare, ce chiffre n'a rien d'abstrait. Une odyssee diagnostique peut durer des annees, pleine de tests repetes, d'impasses et d'absence de nom pour ce qui ne va pas, et une seule bonne reponse peut changer le traitement, mettre fin a la recherche et relier une famille a d'autres atteintes de la meme affection. La promesse ici n'est pas que l'IA remplace le genericien, mais qu'elle peut lire davantage de litterature et croiser davantage de genome qu'une personne ne le peut dans le temps disponible, puis remettre une liste restreinte a un clinicien pour confirmation.
Les mises en garde sont les honnetes. Un taux de 5 pour cent signifie que la grande majorite des cas difficiles restent non resolus, le modele fait emerger des candidats plutot que de les confirmer, et un expert humain reste dans la boucle pour chaque decision. Mais cela se distingue des affirmations plus tape-a-l'oeil de la semaine, la ou une entreprise d'imagerie a annonce un scanner corporel complet non prouve et un nouveau benchmark a montre que les meilleurs modeles ne franchissaient qu'environ un tiers des taches scientifiques d'expert, voici un resultat plus modeste et solidement ancre, avec une evaluation par les pairs et de vrais enfants derriere lui. Reel, modeste et verifie, c'est un genre de manchette en soi.
