OpenAI a publie LifeSciBench, un banc d'essai qui cherche a mesurer a quel point l'IA aide reellement la recherche en sciences de la vie, et le resultat phare est humble: le modele le plus performant teste ne reussit que 36,1 % des taches. Cela se lit comme un retour a la realite delibere dans une semaine chargee d'affirmations sur une IA a la hauteur des medecins et utile a la decouverte en chimie.
Plutot qu'un questionnaire de connaissances, LifeSciBench a ete bati par 173 scientifiques titulaires d'un doctorat issus de la recherche en biotech et en pharmacie, qui ont redige 750 taches couvrant sept flux de travail de recherche, du traitement des preuves a la conduite d'analyses jusqu'a la communication des resultats. Chaque tache est notee selon une grille detaillee, 19 020 criteres en tout et environ 25 par tache, qui evaluent les affirmations, calculs, decisions et justifications precis qu'une bonne reponse doit contenir. Pres de quatre taches sur cinq exigent plusieurs etapes de raisonnement ou de decision, si bien que le test evalue le jugement plutot que la memoire.
A ce niveau d'exigence, les modeles peinent. Le modele specialise propre a OpenAI, GPT-Rosalind, a domine le peloton, signant le meilleur score par tache sur 386 des 750 taches et faisant passer le taux de reussite global de 25,7 % pour GPT-5.5 a 36,1 %. Malgre tout, ce score de tete signifie que le meilleur systeme echoue encore a pres des deux tiers de ce que des scientifiques chevronnes considereraient comme du travail de recherche solide. Un banc d'essai dont le createur lui-meme plafonne autour d'un tiers constitue, a sa maniere, un aveu utile sur l'etat reel de la technologie.
Le moment est revelateur. Cette meme semaine a vu un modele egaler les medecins de premiere ligne dans la gestion des maladies, un autre contribuer a ameliorer une reaction chimique, et une entreprise d'imagerie annoncer un scanner medical, autant d'elements qui invitent a croire que l'IA est arrivee au laboratoire et a la clinique. LifeSciBench est le contrepoids venu de l'interieur de la meme industrie: quand on note le travail comme le font les scientifiques en activite, par rapport a ce qu'une reponse rigoureuse doit reellement contenir, les meilleurs modeles d'aujourd'hui en franchissent environ un tiers. La capacite est reelle et grimpe, mais la distance qu'il reste jusqu'au niveau expert est precisement la partie que les demonstrations tendent a passer sous silence.
