Los modelos del mundo aprendidos se están volviendo más grandes y capaces, pero planificar sobre ellos a horizontes largos es frágil. Los rollouts profundos producen gráficos de cómputo mal condicionados, el paisaje de pérdida es irregular con mínimos locales, y los gradientes de estado-entrada a través de encoders visuales son adversariamente frágiles. El post del blog BAIR sobre GRASP, de Michael Psenka, Mike Rabbat, Aditi Krishnapriyan, Yann LeCun, y Amir Bar, apunta exactamente a este modo de falla. El paper está en arxiv 2602.00475 con sitio del proyecto en michaelpsenka.io/grasp.
Tres ideas hacen el trabajo. Primero, el lift de estado virtual reformula el rollout como problema de colocación: en lugar de predecir cada paso temporal en serie, el optimizador busca simultáneamente sobre estados y acciones con la dinámica aprendida apareciendo como restricciones suaves. La predicción de cada paso depende solo de variables locales, así toda la trayectoria de T pasos puede optimizarse en paralelo. Segundo, la inyección de estocasticidad de estado añade ruido gaussiano a las iteraciones de estado durante la optimización mientras las acciones siguen recibiendo updates de gradiente determinísticos. Eso empuja al optimizador entre cuencas sin introducir la varianza de la selección de acción aleatorizada. Tercero, el reshape de gradiente detiene los gradientes que fluyen por la entrada de estado de la función de dinámica (el camino frágil a través del modelo visual) mientras preserva gradientes sobre acciones, y añade un término denso de shaping de meta que matchea salidas del modelo con la meta en cada paso temporal en lugar de solo el estado final.
Los números son el punto. En manipulación Push-T, GRASP a horizonte 60 logra 26,2% de éxito con 49,1 segundos de tiempo de planificación. CEM al mismo horizonte logra 7,2% con 83,1 segundos. Empuja el horizonte a 80 y GRASP es 10,4% a 58,9 segundos; CEM es 2,8% a 132 segundos. Los métodos base se colapsan — el descenso de gradiente estándar y la colocación latente (LatCo) caen bajo 20% a H=60. GRASP no solo corre más rápido a horizontes largos, se queda en el régimen donde la planificación realmente produce trayectorias útiles. Los benchmarks en el post cubren BallNav (navegación) y Push-T (manipulación); el post no muestra resultados en suites RL estándar como DeepMind Control o Atari, así que la historia de generalización se limita a manipulación y navegación por ahora.
Si estás planificando sobre modelos del mundo aprendidos y chocando el muro de horizonte largo, las tres ideas de GRASP son separables. Puedes adoptar el lift de estado virtual para optimización paralela, la estocasticidad solo-estado para escapar mínimos locales, y el reshape de gradiente para estabilizar a través de encoders visuales. La lista de autores vale la pena notar. LeCun y Rabbat en Meta AI colaborando con el grupo Krishnapriyan de Berkeley sugiere que esto se enmarca en el empuje más amplio de planificación de modelos del mundo de Meta en torno a JEPA y V-JEPA, lo cual importa para qué tan rápido estas técnicas aparecerán en modelos downstream.
