Sony AI a publié Project Ace dans Nature ce mois-ci, pis le chiffre vedette, c'est que leur robot de tennis de table gagne trois parties sur cinq contre des joueurs élites avec dix ans d'expérience ou plus, pis a maintenant battu plusieurs pros de haut niveau dans des matchs qui remontent à décembre 2025. C'est une étape significative au-delà du robot de tennis de table de Google DeepMind en 2024, qui jouait à peu près au niveau amateur. L'équipe du chef de projet Peter Dürr fait la revendication la plus forte à ce jour pour « performance de niveau expert dans n'importe quel sport physique compétitif » — une catégorie qui demandait avant des environnements purement simulés ou des robots qui pouvaient gérer juste un ou deux scénarios entraînés.
Ce qui rend cet article intéressant du point de vue du développeur, c'est pas l'apprentissage par renforcement profond. Le RL est conventionnel : une politique qui prend l'état de la balle pis prédit où frapper avec la palette. Ce qui fait que ça marche, c'est la pile de perception : neuf caméras sur trois systèmes de vision, suivi de balle à 200 Hz avec une précision au millimètre pis une latence d'environ dix millisecondes, pis mesure de l'effet jusqu'à 700 Hz. Le tennis de table, c'est fondamentalement un problème de perception avant d'être un problème de contrôle — une balle de 40 millimètres qui voyage à 30 mètres par seconde te laisse à peu près 50 millisecondes pour lire l'effet, prédire la trajectoire, décider d'un coup pis frapper. Descends la perception sous les dix millisecondes pis une politique de contrôle compétente peut faire le reste. Garde-la à 30 millisecondes pis tu réponds toujours à où était la balle, pas à où elle est.
La limite honnête de l'article, soulevée par un joueur pro adverse, c'est que le robot s'adapte pas de la façon dont les humains le font. La citation — « impossible de sentir quels genres de coups il aime pas » — est exactement inversée par rapport au fonctionnement du jeu humain de haut niveau. Les humains lisent le langage corporel de l'adversaire, l'angle de la palette en élan arrière pis le transfert de poids pour prédire la direction du coup avant même que la balle soit frappée, pis ils dirigent l'échange vers les faiblesses de l'adversaire à travers plusieurs points. Project Ace joue chaque balle proprement mais apprend pas l'humain au fil du match. Sony le reconnaît ; « s'adapter à leur adversaire pis trouver des faiblesses » est le domaine de recherche ouvert. Ce trou-là, c'est ce qui sépare « bat de bons joueurs des fois » de « gagne des tournois ».
Pour les développeurs qui pensent à l'IA incarnée, le résultat de Sony est un correctif utile à la narration que le goulot d'étranglement est toujours le modèle. Dans ce cas, le modèle est assez standard, l'incarnation est très spécialisée, pis la percée, c'est la fusion de capteurs pis la perception en temps réel. La même leçon s'applique à n'importe quel produit robotique qui doit réagir à un état physique qui bouge vite : tu peux jeter du calcul arbitraire sur la politique, mais si ta boucle de perception est plus lente que la dynamique qui t'intéresse, la qualité de la politique est non pertinente. La prochaine vague de démos d'IA physique qui valent la peine d'être prises au sérieux, c'est celles qui publient leur latence pis leur précision de détection à côté des benchmarks de politique. Sony l'a fait. Les articles qui le font pas cachent généralement quelque chose.
