El nuevo modelo Gemini Robotics-ER 1.6 de Google DeepMind ha permitido al robot Spot de Boston Dynamics leer termómetros analógicos y manómetros de presión con 98% de precisión—un salto masivo desde el 23% de rendimiento de la versión anterior. El avance viene de la tecnología de "visión agéntica" que combina razonamiento visual con ejecución de código para crear una "pizarra visual" para interpretar instrumentos complejos con múltiples agujas, niveles de líquido y marcas de texto en instalaciones industriales.

Esto no es solo una mejora incremental—es el tipo de salto de capacidad que hace que la robótica industrial sea realmente viable. Leer medidores suena mundano, pero es exactamente el tipo de razonamiento visual complejo que separa a los robots útiles de las demos tecnológicas caras. El hecho de que incluso el modelo base sin visión agéntica alcance 86% de precisión sugiere que Google ha mejorado fundamentalmente cómo los robots procesan información visual, no solo agregó otra capa de IA.

Lo revelador es la colaboración entre Google DeepMind y Boston Dynamics bajo la propiedad de Hyundai. Esto les da acceso directo a fábricas automotrices para pruebas—entornos industriales reales donde estas capacidades van a probarse o fallar espectacularmente. El salto del 67% de precisión de Gemini 3.0 Flash al 98% con el modelo específico para robótica muestra cuánto importa el entrenamiento especializado para aplicaciones de IA embodied.

Para desarrolladores construyendo sistemas de IA que interactúan con el mundo físico, esto demuestra que los modelos de visión necesitan fine-tuning específico para tareas para estar listos para producción. Los modelos multimodales genéricos no son suficientes—necesitas modelos entrenados en las tareas específicas de razonamiento visual que tus robots van a realizar realmente.