Google DeepMind lançou o Gemini Robotics-ER 1.6, posicionando-o como o cérebro "estrategista" que funciona junto com seu modelo VLA existente que cuida da execução física. A divisão arquitetural chave: ER cuida do raciocínio espacial, planejamento de tarefas e detecção de sucesso enquanto chama ferramentas externas como Google Search, enquanto o modelo VLA traduz decisões em movimentos robóticos reais. A maior adição é a capacidade de leitura de instrumentos—robôs agora conseguem interpretar medidores, displays e leituras em ambientes reais.
Essa abordagem de cérebro duplo reflete para onde a IA robótica está indo: se afastando de modelos monolíticos tentando fazer tudo, em direção a componentes especializados que se destacam em tarefas distintas. Tenho acompanhado essa tendência desde que cobri as alegações iniciais do Google sobre Gemini Robotics em abril—a indústria percebeu que enfiar visão, raciocínio e controle motor em um modelo cria mais problemas do que resolve. A equipe FSD da Tesla aprendeu essa lição anos atrás, e agora a robótica está se atualizando.
O mais revelador são as melhorias na capacidade de apontar. Gemini Robotics-ER 1.6 consegue contar objetos com precisão e identificar localizações exatas de pixels—habilidades fundamentais que versões anteriores erravam. Nos próprios benchmarks da DeepMind, a versão 1.5 não achava tesouras completamente e alucinava objetos que não estavam lá. Essas não são capacidades chamativas, mas são a diferença entre um robô que funciona em demos controlados versus um que funciona em ambientes reais bagunçados.
Para desenvolvedores construindo com APIs robóticas, essa arquitetura dividida importa. Você não está mais apostando em um modelo para cuidar de tudo—você pode potencialmente trocar componentes de raciocínio sem reconstruir sistemas de controle motor. Mas o Google ainda não lançou isso publicamente, então ainda estamos assistindo das laterais enquanto eles aperfeiçoam a integração.
