Des chercheurs ont lancé PRBench, un benchmark qui teste si les agents IA peuvent reproduire des résultats computationnels d'articles de physique réels. Le Codex 5.3 d'OpenAI mène le peloton, bien que les métriques de performance spécifiques n'aient pas été divulguées dans les rapports initiaux. Le benchmark représente un virage des tests de codage synthétiques vers de vrais défis de reproductibilité scientifique.
C'est important parce que la reproduction de code est un problème scientifique fondamental qui précède l'IA. Les articles de physique incluent souvent des méthodes computationnelles que d'autres chercheurs peinent à répliquer, contribuant à la crise plus large de reproductibilité en science. Si les agents IA peuvent reproduire de façon fiable le code scientifique, ils pourraient accélérer la vérification de recherche et aider à établir des standards computationnels à travers les disciplines.
Les rapports limités soulèvent des questions immédiates sur la méthodologie et la portée de PRBench. On ne sait pas combien d'articles ont été testés, ce qui constitue une reproduction « réussie », ou comment le benchmark gère le problème notoire des dépendances sous-documentées et de la configuration d'environnement qui empoisonnent le code scientifique. L'absence de données de performance détaillées ou de perspectives concurrentes suggère que cette recherche en est encore à ses débuts.
Pour les développeurs qui construisent des outils IA scientifiques, PRBench pourrait devenir un standard d'évaluation crucial. Mais le vrai test sera de savoir si ces agents peuvent gérer la réalité bordélique du calcul scientifique : documentation incomplète, bases de code héritées, et le genre d'expertise de domaine qui prend des années à développer. Du code qui fonctionne, c'est pas la même chose que du code scientifiquement valide.
