Google DeepMind a lancé Gemini Robotics, un modèle Vision-Language-Action basé sur Gemini 2.0 qui prétend contrôler directement des robots sur différentes plateformes matérielles. Le système peut gérer des tâches de manipulation complexes comme plier de l'origami et jouer aux cartes, s'adapter à de nouveaux corps robotiques incluant des plateformes bi-bras, et apprendre de nouvelles tâches avec aussi peu que 100 démonstrations. DeepMind dit que ça fonctionne avec des environnements non vus et suit des instructions à vocabulaire ouvert tout en exécutant des "mouvements fluides et réactifs".

Ceci représente la poussée la plus agressive de Google dans l'IA incarnée, dépassant les chatbots pour aller vers le contrôle du monde physique. Le timing n'est pas coincidentiel—les compagnies de robotique se battent pour résoudre le problème d'intégration matériel-logiciel qui a gardé les robots utiles hors des environnements réels. L'approche de DeepMind d'entraîner un modèle généraliste qui s'adapte à n'importe quel corps robotique pourrait résoudre le problème de fragmentation qui afflige la robotique depuis des décennies.

Pendant ce temps, des chercheurs à KAIST ont lancé Robot-R1, prenant une approche différente avec l'apprentissage par renforcement au lieu du fine-tuning supervisé. Ils argumentent que les méthodes d'entraînement traditionnelles mènent à "l'oubli catastrophique et une performance de généralisation réduite" dans les tâches robotiques. Robot-R1 apprend à prédire les états de points clés pour la complétion de tâches, inspiré par l'approche de raisonnement de DeepSeek-R1. Les méthodologies concurrentes soulignent l'incertitude continue sur le meilleur chemin vers la robotique à usage général.

Pour les développeurs, la question pratique est de savoir si ces modèles vont vraiment être livrés comme des API que vous pouvez utiliser, ou rester des démos de recherche. L'historique de DeepMind suggère un optimisme prudent—ils ont livré des modèles de production avant, mais la robotique a brûlé des milliards dans le hype. Le vrai test est de savoir si Gemini Robotics fonctionne assez de manière fiable pour que quelqu'un mise son produit dessus.