O novo modelo Gemini Robotics-ER 1.6 do Google DeepMind permitiu que o robô Spot da Boston Dynamics leia termômetros analógicos e manômetros de pressão com 98% de precisão—um salto massivo dos 23% de performance da versão anterior. O avanço vem da tecnologia de "visão agêntica" que combina raciocínio visual com execução de código para criar um "rascunho visual" para interpretar instrumentos complexos com múltiplas agulhas, níveis de líquido e marcações de texto em instalações industriais.

Isso não é apenas uma melhoria incremental—é o tipo de salto de capacidade que torna a robótica industrial realmente viável. Ler medidores parece mundano, mas é exatamente o tipo de raciocínio visual complexo que separa robôs úteis de demos tecnológicas caras. O fato de que mesmo o modelo base sem visão agêntica atinge 86% de precisão sugere que o Google melhorou fundamentalmente como robôs processam informação visual, não apenas adicionou outra camada de IA.

O que é revelador é a colaboração entre Google DeepMind e Boston Dynamics sob a propriedade da Hyundai. Isso dá acesso direto a fábricas automotivas para testes—ambientes industriais reais onde essas capacidades vão se provar ou falhar espetacularmente. O salto dos 67% de precisão do Gemini 3.0 Flash para 98% com o modelo específico para robótica mostra o quanto o treinamento especializado importa para aplicações de IA embodied.

Para desenvolvedores construindo sistemas de IA que interagem com o mundo físico, isso demonstra que modelos de visão precisam de fine-tuning específico para tarefas para estar prontos para produção. Modelos multimodais genéricos não são suficientes—você precisa de modelos treinados nas tarefas específicas de raciocínio visual que seus robôs vão realmente executar.