A Physical Intelligence envia o π0.5 com generalização em mundo aberto e um tokenizador de ações 5x mais rápido, em um momento forte para os modelos-fundação em robótica

A Physical Intelligence enviou o π0.5, a próxima iteração de sua política robótica generalista, na quinta-feira. A afirmação principal é generalização zero-shot para novos ambientes domésticos: o mesmo modelo consegue controlar um manipulador móvel para limpar uma cozinha ou um quarto que nunca viu, sem fine-tuning. A peça secundária mas estruturalmente importante é um novo tokenizador de ações de robô que treina políticas generalistas aproximadamente cinco vezes mais rápido do que o método anterior. O lançamento aterrissa dentro de um cluster apertado de notícias sobre modelos-fundação em robótica. O GEN-1 da Generalist AI (2 de abril) reivindica 99 por cento de sucesso em tarefas físicas simples com apenas uma hora de dados de robô por tarefa, treinado em um dataset de 500.000 horas. O Gemini Robotics-ER 1.6 do Google DeepMind (15 de abril) atualizou a camada "cérebro cognitivo" para raciocínio embarcado. Três laboratórios, três lançamentos importantes, duas semanas.

O tokenizador de ações da PI é a parte que se deve ler primeiro. Avanços em tokenização foram centrais na forma como LLMs se tornaram tratáveis em escala: escolher melhor os tokens significa mais informação por cômputo de treinamento, o que deixa o modelo generalizar mais longe no mesmo orçamento de dados. O mesmo padrão está agora se jogando em robótica. A melhoria de 5x na velocidade de treinamento a partir de uma nova tokenização do espaço de ações não é só conveniência de engenharia, é o tipo de inflexão que torna treináveis tarefas mais difíceis. A generalização zero-shot em casa é a demonstração de capacidade, mas o tokenizador é a coisa que vai aparecer em cada lançamento subsequente da PI e provavelmente no trabalho dos competidores. No cluster mais amplo: o GEN-1 da Generalist reporta 99 por cento de sucesso onde "modelos anteriores atingem 64 por cento" em tarefas físicas simples, e requer apenas uma hora de dados de robô por tarefa. Essa é uma alegação de eficiência de amostra que merece ser testada contra avaliação independente. O Gemini Robotics-ER 1.6 é uma história de atualização de raciocínio mais estreita e deveria ser avaliado como um componente num stack de robô completo em vez de como uma política generalista por si só.

Os modelos-fundação em robótica deixaram de ser uma pergunta aberta de pesquisa e começaram a ser uma categoria comercial de produto. Há duas semanas o estado da arte era "π0 funciona no laboratório". Hoje é "π0.5 generaliza para ambientes domésticos nunca vistos, GEN-1 reivindica domínio em tarefas simples, Gemini Robotics-ER 1.6 é a camada de raciocínio cognitivo". A competição entre PI, Generalist AI, Google DeepMind e a comunidade robótica open-source (os lançamentos Isaac da NVIDIA, o dataset Open X-Embodiment, laboratórios acadêmicos) produziu progresso real na fronteira de capacidades em um intervalo curto. A implicação comercial é que quem estiver construindo em IA física agora precisa escolher em qual linhagem de modelo-fundação apostar, e as escolhas precoces não são óbvias. A PI é de pesos fechados, a Generalist é igualmente fechada, os lançamentos do Google misturam fechado e aberto. O padrão espelha o espaço LLM há dois anos: laboratórios que puxam a capacidade enviam fechado, o open-source alcança com atraso, e os construtores aplicados têm que decidir se pegam a vantagem de capacidade ou a vantagem de controle.

A maioria dos construtores lendo isso não está enviando robôs. Para a pequena minoria que está, três observações concretas. Primeiro, o tokenizador de ações da PI é o tipo de detalhe que pode importar mais do que a demo de capacidade; fique de olho em se a PI publica o tokenizador de forma independente ou o mantém como fosso. Segundo, a alegação da Generalist de "uma hora de dados de robô por tarefa" é a inflexão de eficiência de amostra que tornaria tarefas de robô sob medida tratáveis para times fora de laboratório, se ela se sustentar sob avaliação externa. Acompanhe por replicação independente. Terceiro, se o seu produto envolve um robô de propósito geral num ambiente humano (robótica doméstica, logística, cuidado de idosos), a velocidade desse progresso significa que seu horizonte de planejamento acabou de encurtar. A fronteira de capacidades de 2027 vai ser visivelmente diferente da de 2025, e o posicionamento de produto que assumiu que robôs continuariam sendo especialistas de tarefa estreita por mais cinco anos está errado. Para construtores não-robóticos, a lição transferível é que o padrão "melhor tokenização desbloqueia escala" é um fenômeno recorrente do deep learning. Se o seu domínio de dados tem tokenização desajeitada ou ineficiente, arrumar isso é frequentemente um 5x escondido à vista de todos.

A Physical Intelligence envia o π0.5 com generalização em mundo aberto e um tokenizador de ações 5x mais rápido, em um momento forte para os modelos-fundação em robótica

Mais notícias