La Fondation ARC Prize de François Chollet vient de lancer ARC-AGI-3, pis c'est brutal. La nouvelle version de ce benchmark de raisonnement interactif que les humains résolvent à 100% a fait tomber tous les modèles d'IA de pointe sous les 1%. Le Gemini Pro de Google mène ce tableau d'humiliation à 0,37%, suivi de GPT 5.4 High à 0,26%, Claude Opus à 0,25%, et Grok qui marque un zéro rond. Ce sont des scénarios comme des jeux sans aucune instruction où les modèles doivent découvrir les règles, former des objectifs et exécuter des stratégies entièrement à partir de zéro.

Ce reset compte parce qu'il crève la bulle du hype de l'AGI exactement au bon moment. Les labos ont brûlé des millions à s'entraîner spécifiquement sur ARC-AGI-2, poussant les scores de 3% à environ 50% en moins d'un an — pour se faire ramener à presque zéro par la V3. Chollet a conçu ça intentionnellement pour séparer le vrai raisonnement de la reconnaissance de patterns coûteuse et de l'optimisation brute force. Le prix d'un million de dollars qui soutient le défi fait que les labos de pointe y portent bien plus d'attention qu'aux versions précédentes.

Ce qui est le plus révélateur, c'est le pattern. Chaque sortie d'ARC déclenche le même cycle : les modèles se font embarrasser, les labos jettent des ressources sur le problème, les scores grimpent rapidement, puis une nouvelle version remet tout à zéro. Si les améliorations de score éventuelles sur la V3 représenteront de vraies percées de raisonnement ou juste de la mémorisation plus sophistiquée, c'est exactement ce que Chollet a construit ça pour exposer. Pour les développeurs qui misent sur les capacités de raisonnement des modèles, ARC-AGI-3 est le retour à la réalité dont votre roadmap produit a besoin.