O Google DeepMind lançou o Gemini Robotics, um modelo Vision-Language-Action construído sobre o Gemini 2.0 que afirma controlar diretamente robôs em diferentes plataformas de hardware. O sistema pode lidar com tarefas de manipulação complexas como dobrar origami e jogar cartas, se adaptar a novas encarnações robóticas incluindo plataformas de duplo braço, e aprender novas tarefas com apenas 100 demonstrações. A DeepMind diz que funciona com ambientes não vistos e segue instruções de vocabulário aberto enquanto executa "movimentos suaves e reativos".

Isso representa o avanço mais agressivo do Google na IA encarnada, indo além de chatbots para o controle do mundo físico. O timing não é coincidencial—empresas de robótica estão correndo para resolver o problema de integração hardware-software que tem mantido robôs úteis fora de ambientes reais. A abordagem da DeepMind de treinar um modelo generalista que se adapta a qualquer corpo robótico poderia resolver o problema de fragmentação que tem atormentado a robótica por décadas.

Enquanto isso, pesquisadores na KAIST lançaram o Robot-R1, adotando uma abordagem diferente com aprendizado por reforço em vez de fine-tuning supervisionado. Eles argumentam que métodos de treinamento tradicionais levam a "esquecimento catastrófico e desempenho de generalização reduzido" em tarefas robóticas. O Robot-R1 aprende a prever estados de pontos-chave para completar tarefas, inspirado pela abordagem de raciocínio do DeepSeek-R1. As metodologias concorrentes destacam a incerteza contínua sobre o melhor caminho para robótica de propósito geral.

Para desenvolvedores, a questão prática é se esses modelos realmente serão lançados como API que você pode usar, ou permanecerão como demos de pesquisa. O histórico da DeepMind sugere otimismo cauteloso—eles já entregaram modelos de produção antes, mas a robótica já queimou bilhões em hype. O teste real é se o Gemini Robotics funciona de forma confiável o suficiente para alguém apostar seu produto nele.