Le nouveau modèle Gemini Robotics-ER 1.6 de Google DeepMind a permis au robot Spot de Boston Dynamics de lire les thermomètres analogiques et les manomètres avec une précision de 98%—un bond massif par rapport à la performance de 23% de la version précédente. Cette percée vient de la technologie de « vision agentique » qui combine le raisonnement visuel avec l'exécution de code pour créer un « bloc-notes visuel » permettant d'interpréter des instruments complexes avec plusieurs aiguilles, niveaux de liquide et marquages textuels dans les installations industrielles.
C'est pas juste une amélioration progressive—c'est le genre de bond de capacité qui rend la robotique industrielle réellement viable. Lire des jauges peut sembler banal, mais c'est exactement le type de raisonnement visuel complexe qui sépare les robots utiles des démos technologiques coûteuses. Le fait que même le modèle de base sans vision agentique atteint 86% de précision suggère que Google a fondamentalement amélioré la façon dont les robots traitent l'information visuelle, pas juste ajouté une autre couche d'IA.
Ce qui est révélateur, c'est la collaboration entre Google DeepMind et Boston Dynamics sous la propriété de Hyundai. Ça leur donne un accès direct aux usines automobiles pour les tests—des environnements industriels réels où ces capacités vont soit faire leurs preuves, soit échouer spectaculairement. Le bond de 67% de précision avec Gemini 3.0 Flash à 98% avec le modèle spécialisé en robotique montre à quel point l'entraînement spécialisé compte pour les applications d'IA embodied.
Pour les développeurs qui construisent des systèmes d'IA qui interagissent avec le monde physique, ça démontre que les modèles de vision ont besoin d'un fine-tuning spécifique aux tâches pour être prêts pour la production. Les modèles multimodaux génériques suffisent pas—vous avez besoin de modèles entraînés sur les tâches spécifiques de raisonnement visuel que vos robots vont réellement performer.
