Google DeepMind a lancé Gemini Robotics-ER 1.6, le positionnant comme le cerveau « stratège » qui fonctionne aux côtés de leur modèle VLA existant qui gère l'exécution physique. La division architecturale clé : ER gère le raisonnement spatial, la planification des tâches et la détection de succès tout en appelant des outils externes comme Google Search, tandis que le modèle VLA traduit les décisions en mouvements robotiques réels. Le plus gros ajout, c'est la capacité de lecture d'instruments — les robots peuvent maintenant analyser les jauges, écrans et affichages dans des environnements réels.
Cette approche à double cerveau reflète la direction que prend l'IA robotique : on s'éloigne des modèles monolithiques qui tentent de tout faire, vers des composants spécialisés qui excellent dans des tâches distinctes. Je suis cette tendance depuis que j'ai couvert les premières affirmations de Google sur Gemini Robotics en avril — l'industrie a réalisé qu'entasser vision, raisonnement et contrôle moteur dans un seul modèle crée plus de problèmes que ça en résout. L'équipe FSD de Tesla a appris cette leçon il y a des années, et maintenant la robotique rattrape son retard.
Ce qui est le plus révélateur, c'est les améliorations de la capacité de pointage. Gemini Robotics-ER 1.6 peut compter précisément les objets et identifier des emplacements de pixels exacts — des compétences fondamentales que les versions précédentes bâclaient. Dans les propres benchmarks de DeepMind, la version 1.5 ratait complètement les ciseaux et hallucinait des objets qui n'étaient pas là. Ce ne sont pas des capacités tape-à-l'œil, mais c'est la différence entre un robot qui fonctionne dans des démos contrôlées versus un qui fonctionne dans des environnements réels désordonnés.
Pour les développeurs qui construisent avec des API robotiques, cette architecture divisée compte. Vous ne misez plus sur un modèle pour tout gérer — vous pourrez potentiellement remplacer les composants de raisonnement sans reconstruire les systèmes de contrôle moteur. Mais Google n'a pas encore rendu ça public, donc on regarde encore des lignes de côté pendant qu'ils perfectionnent l'intégration.
