Modelos de mundo aprendidos estão ficando maiores e mais capazes, mas planejar sobre eles em horizontes longos é frágil. Rollouts profundos produzem grafos de computação mal condicionados, a paisagem de perda é irregular com mínimos locais, e gradientes de estado-entrada através de encoders visuais são adversarialmente frágeis. O post do blog BAIR sobre GRASP, de Michael Psenka, Mike Rabbat, Aditi Krishnapriyan, Yann LeCun, e Amir Bar, mira exatamente esse modo de falha. O paper está em arxiv 2602.00475 com site do projeto em michaelpsenka.io/grasp.

Três ideias fazem o trabalho. Primeiro, lift de estado virtual reformula o rollout como problema de colocação: em vez de prever cada passo temporal serialmente, o otimizador busca simultaneamente sobre estados e ações com a dinâmica aprendida aparecendo como restrições suaves. A predição de cada passo depende só de variáveis locais, então a trajetória inteira de T passos pode ser otimizada em paralelo. Segundo, injeção de estocasticidade de estado adiciona ruído gaussiano às iterações de estado durante a otimização enquanto ações continuam recebendo updates de gradiente determinísticos. Isso empurra o otimizador entre bacias sem introduzir a variância da seleção aleatorizada de ação. Terceiro, reshape de gradiente para os gradientes fluindo pela entrada de estado da função de dinâmica (o caminho frágil através do modelo visual) enquanto preserva gradientes sobre ações, e adiciona um termo denso de shaping de objetivo que casa saídas do modelo com o objetivo em cada passo temporal em vez de só o estado final.

Os números são o ponto. Em manipulação Push-T, GRASP em horizonte 60 atinge 26,2% de sucesso com 49,1 segundos de tempo de planejamento. CEM no mesmo horizonte atinge 7,2% com 83,1 segundos. Empurre o horizonte para 80 e GRASP é 10,4% em 58,9 segundos; CEM é 2,8% em 132 segundos. Métodos base colapsam — descida de gradiente padrão e colocação latente (LatCo) caem abaixo de 20% em H=60. GRASP não só roda mais rápido em horizontes longos, ele fica no regime onde planejamento realmente produz trajetórias úteis. Os benchmarks no post cobrem BallNav (navegação) e Push-T (manipulação); o post não mostra resultados em suítes RL padrão como DeepMind Control ou Atari, então a história de generalização se limita a manipulação e navegação por enquanto.

Se você está planejando sobre modelos de mundo aprendidos e batendo no muro do horizonte longo, as três ideias de GRASP são separáveis. Você pode adotar lift de estado virtual para otimização paralela, estocasticidade só-estado para escapar de mínimos locais, e reshape de gradiente para estabilizar através de encoders visuais. A lista de autores vale notar. LeCun e Rabbat na Meta AI colaborando com o grupo Krishnapriyan de Berkeley sugere que isso se insere no empurrão mais amplo de planejamento de modelos de mundo da Meta em torno de JEPA e V-JEPA, o que importa para quão rápido essas técnicas aparecerão em modelos downstream.