Un système d'IA appelé The AI Scientist a produit un article d'apprentissage automatique qui a obtenu des scores suffisamment élevés pour passer l'évaluation par les pairs lors d'un atelier ICLR, recevant des scores d'évaluateurs de 6, 7 et 6 pour une moyenne de 6,33—au-dessus du seuil d'acceptation et dans le top 45% des soumissions. Mais le contenu de l'article était banal : il testait une technique qui, finalement, n'améliorait pas l'apprentissage des réseaux de neurones. L'équipe de recherche l'a retiré avant acceptation selon leur protocole pré-établi pour les travaux générés par IA.
La vraie histoire n'est pas les résultats médiocres de l'article, mais comment il a été créé. The AI Scientist a automatisé la génération d'idées, la revue de littérature, l'expérimentation, la rédaction de manuscrit et l'évaluation par les pairs à travers tout le pipeline de recherche. Cela va bien au-delà des outils d'IA actuels qui aident avec le codage ou l'analyse de données—ça automatise la formation d'hypothèses et l'interprétation scientifique, les parties que les chercheurs pensaient définir leur travail. Publié dans Nature, ceci représente le premier cas documenté d'IA franchissant une barre d'évaluation par les pairs de bout en bout, même au niveau inférieur d'un atelier.
Les limitations sont importantes et révélatrices. Aucun des trois articles n'a atteint les standards pour la conférence principale ICLR, et les ateliers acceptent 70% des soumissions versus 32% pour la piste principale. Les humains ont encore filtré manuellement les résultats avant soumission, choisissant les candidats les plus prometteurs. Le système ne fonctionne que dans l'apprentissage automatique où les expériences roulent entièrement sur ordinateurs, pas dans les domaines nécessitant des labos physiques ou une validation complexe du monde réel.
Pour les constructeurs d'IA, ceci signale un changement des outils qui assistent la recherche vers des systèmes qui tentent la recherche. Les implications sont inconfortables : si l'IA peut générer du travail publiable aux standards d'ateliers aujourd'hui, qu'arrive-t-il aux carrières scientifiques, à la crédibilité de l'évaluation par les pairs, et à la qualité de la recherche demain? La technologie fonctionne, à peine—mais les questions qu'elle soulève sur la science elle-même ne font que commencer.
