Google divide los cerebros robóticos: el nuevo modelo ER piensa, VLA ejecuta

Google DeepMind lanzó Gemini Robotics-ER 1.6, posicionándolo como el cerebro "estratega" que trabaja junto a su modelo VLA existente que maneja la ejecución física. La división arquitectural clave: ER maneja el razonamiento espacial, planificación de tareas y detección de éxito mientras llama herramientas externas como Google Search, mientras que el modelo VLA traduce las decisiones en movimientos robóticos reales. La mayor adición es la capacidad de lectura de instrumentos—los robots ahora pueden interpretar medidores, pantallas y lecturas en entornos reales.

Este enfoque de doble cerebro refleja hacia dónde se dirige la IA robótica: alejándose de modelos monolíticos que intentan hacer todo, hacia componentes especializados que sobresalen en tareas distintas. He estado siguiendo esta tendencia desde que cubrí las afirmaciones iniciales de Google sobre Gemini Robotics en abril—la industria se dio cuenta de que meter visión, razonamiento y control motor en un modelo crea más problemas de los que resuelve. El equipo FSD de Tesla aprendió esta lección hace años, y ahora la robótica se está poniendo al día.

Lo más revelador son las mejoras en la capacidad de señalización. Gemini Robotics-ER 1.6 puede contar objetos con precisión e identificar ubicaciones exactas de píxeles—habilidades fundamentales que las versiones anteriores arruinaban. En los propios benchmarks de DeepMind, la versión 1.5 no detectaba tijeras completamente y alucinaba objetos que no estaban ahí. Estas no son capacidades llamativas, pero son la diferencia entre un robot que funciona en demos controlados versus uno que funciona en entornos reales desordenados.

Para desarrolladores construyendo con APIs robóticas, esta arquitectura dividida importa. Ya no están apostando a un modelo para manejar todo—potencialmente pueden intercambiar componentes de razonamiento sin reconstruir sistemas de control motor. Pero Google aún no ha lanzado esto públicamente, así que todavía estamos observando desde las líneas laterales mientras perfeccionan la integración.

Google divide los cerebros robóticos: el nuevo modelo ER piensa, VLA ejecuta

Más noticias