OpenAI affirme que son modele GPT-5.5 Instant repond desormais aux questions de sante a peu pres aussi bien que les modeles Thinking de pointe de l'entreprise, et que, dans ses propres evaluations, les reponses du modele ont ete mieux notees que les reponses redigees par des medecins sur le plan de l'exactitude, de la communication et de l'exhaustivite. La mise a jour est deployee aupres de tous les utilisateurs de ChatGPT, y compris ceux de la version gratuite, et c'est cet aspect qui la rend notable : GPT-5.5 Instant est le modele rapide et par defaut dont dispose la plupart des gens, et non l'un des modeles de raisonnement plus lents reserves aux utilisateurs payants.

C'est la portee qui rend la chose importante. OpenAI affirme que plus de 230 millions de personnes se tournent chaque semaine vers ChatGPT avec des questions de sante et de bien-etre ; ameliorer le modele qui traite par defaut la plupart de ces questions touche donc bien plus de monde qu'un gain sur un palier premium. L'entreprise indique que la nouvelle version reconnait mieux quand une situation peut necessiter des soins urgents, demande le contexte pertinent avant de repondre, explique a quel point elle est confiante ou incertaine, et traduit une information medicale dense dans un langage clair. Elle indique aussi que les affirmations de sante erronees ont diminue d'environ 71 pour cent au cours de deux mois de travail.

Du cote de la mesure, OpenAI met en avant un agregat d'evaluations de sante, dont un banc d'essai qu'elle appelle HealthBench Professional, sur lequel elle affirme que GPT-5.5 Instant atteint un niveau comparable a celui de ses modeles de raisonnement de pointe. L'entreprise decrit egalement un reseau mondial de plus de 260 medecins repartis dans 60 pays qui contribuent a definir et a noter ce a quoi ressemble une bonne reponse en matiere de sante, et c'est ce type d'examen par des experts qui a produit l'affirmation phare selon laquelle le modele a obtenu de meilleures notes que les reponses redigees par les medecins eux-memes.

Les reserves meritent une place egale. Chacun de ces resultats provient des propres bancs d'essai d'OpenAI et de ses propres evaluateurs, sans validation independante ni revue par les pairs publiee a cote. Obtenir de meilleures notes que des reponses redigees par des medecins dans une etude evaluee mesure la qualite d'un texte tel qu'il est juge par un panel ; ce n'est pas la meme chose que de mesurer ce qui se passe lorsqu'une personne reelle agit selon le conseil, et la configuration exacte de la comparaison, notamment la question de savoir si le modele et les medecins ont repondu a des questions identiques avec le meme niveau de detail, n'est pas pleinement exposee. Il y a aussi le simple fait qu'il s'agit du modele rapide plutot que du modele reflechi, qui traite maintenant par defaut des questions de sante pour des centaines de millions d'utilisateurs gratuits. OpenAI continue de dire que ChatGPT ne remplace pas les soins professionnels.

Cela survient au terme d'une semaine remplie d'affirmations sur l'IA medicale, depuis un scanner corporel integral non prouve jusqu'a un resultat solide et revu par les pairs ou o3 d'OpenAI a aide a diagnostiquer des maladies rares au Boston Children's Hospital. Le cas present se situe quelque part entre les deux : un gain de capacite qui est probablement reel et veritablement utile pour les questions quotidiennes que les gens posent deja, enveloppe dans une affirmation marketing qu'une entreprise ne devrait pas avoir le loisir de trancher seule au sujet de son propre produit. De meilleures reponses de sante pour 230 millions de personnes par semaine constituent un bien reel. Un fournisseur qui note son propre modele au-dessus des medecins est une affirmation a continuer de traiter comme une affirmation, tant que quelqu'un en dehors de l'entreprise ne l'a pas verifiee.