Les affirmations d'AGI confrontées à la réalité : un score de 0,37 % montre que l'IA ne peut pas gérer la vraie nouveauté

Jensen Huang a déclaré que nous avions atteint l'AGI sur le podcast Lex Fridman la semaine dernière, synchronisant sa déclaration avec le lancement d'ARC-AGI-3 — un benchmark qui l'a immédiatement contredit. Le nouveau test présente des environnements interactifs sans instructions, règles ou objectifs, exigeant des agents qu'ils explorent et s'adaptent. Les humains résolvent 100 % de ces tâches. Les meilleurs modèles de pointe ont géré 0,37 %. Ce n'est pas un écart mineur — c'est un gouffre qui expose la limitation fondamentale des architectures actuelles.

Comme je l'ai noté après les premières déclarations de Huang, cela représente le problème central de définition de l'AGI dans l'industrie. Le timing rend cela plus poignant : le PDG de l'entreprise qui fournit le compute pour tous les grands labs d'IA prétend à la superintelligence tandis qu'en même temps, des tests rigoureux montrent que ces systèmes ne peuvent pas gérer la nouveauté de base. Les modèles actuels excellent dans la reconnaissance de motifs dans leur distribution d'entraînement mais s'effondrent face à des scénarios vraiment nouveaux nécessitant un vrai raisonnement.

Le marché semble d'accord avec les données plutôt qu'avec le battage. Les 25 milliards $ en transactions de cette semaine visaient l'infrastructure et les applications spécialisées, pas les modèles fondamentaux. L'acquisition de Confluent par IBM pour 11 milliards $ se concentre sur le streaming de données en temps réel — les tuyaux entre les modèles et la réalité. Physical Intelligence a levé 1 milliard $ pour les systèmes de contrôle robotique. Eli Lilly a acheté les pipelines de découverte de médicaments d'Insilico pour 2,75 milliards $. L'argent intelligent mise sur des systèmes spécialisés qui fonctionnent dans des contraintes connues, pas sur l'intelligence générale.

Pour les développeurs, cela clarifie l'opportunité immédiate : l'IA excelle dans les tâches avec des motifs clairs et des domaines définis mais échoue dans la résolution de problèmes ouverts. Construisez des systèmes qui exploitent ce que les modèles actuels font bien — classification, génération dans les distributions d'entraînement, raisonnement structuré — tout en gardant les humains dans la boucle pour les situations nouvelles et l'adaptation.

Les affirmations d'AGI confrontées à la réalité : un score de 0,37 % montre que l'IA ne peut pas gérer la vraie nouveauté

Plus de nouvelles