Les modèles de monde appris deviennent plus grands et plus capables, mais planifier au-dessus à longs horizons est fragile. Les rollouts profonds produisent des graphes de calcul mal conditionnés, le paysage de perte est bosselé avec des minimums locaux, pis les gradients d'état-entrée à travers les encodeurs visuels sont fragiles de façon adversariale. Le post du blog BAIR sur GRASP, de Michael Psenka, Mike Rabbat, Aditi Krishnapriyan, Yann LeCun, pis Amir Bar, cible exactement ce mode de défaillance. L'article est à arxiv 2602.00475 avec un site projet à michaelpsenka.io/grasp.

Trois idées font le travail. Premièrement, la levée d'état virtuel reformule le rollout comme un problème de collocation : au lieu de prédire sériellement chaque pas de temps, l'optimiseur cherche simultanément sur les états et les actions avec la dynamique apprise apparaissant comme contraintes molles. La prédiction de chaque pas dépend seulement de variables locales, donc toute la trajectoire T-pas peut être optimisée en parallèle. Deuxièmement, l'injection de stochasticité d'état ajoute du bruit gaussien aux itérations d'état pendant l'optimisation tandis que les actions continuent de recevoir des mises à jour de gradient déterministes. Ça pousse l'optimiseur entre les bassins sans introduire la variance de la sélection d'action randomisée. Troisièmement, le remodelage de gradient arrête les gradients qui coulent à travers l'entrée d'état de la fonction de dynamique (le chemin fragile à travers le modèle visuel) tout en préservant les gradients sur les actions, pis superpose un terme dense de mise en forme de but qui matche les sorties du modèle au but à chaque pas de temps plutôt qu'à l'état final seulement.

Les chiffres sont le point. Sur la manipulation Push-T, GRASP à l'horizon 60 atteint 26,2 % de succès avec 49,1 secondes de temps de planification. CEM au même horizon atteint 7,2 % avec 83,1 secondes. Pousse l'horizon à 80 pis GRASP est à 10,4 % à 58,9 secondes ; CEM est à 2,8 % à 132 secondes. Les méthodes de base s'effondrent — la descente de gradient standard pis la collocation latente (LatCo) tombent sous 20 % à H=60. GRASP ne roule pas juste plus vite aux longs horizons, il reste dans le régime où la planification produit effectivement des trajectoires utiles. Les benchmarks dans le post couvrent BallNav (navigation) pis Push-T (manipulation) ; le post ne montre pas de résultats sur des suites RL standards comme DeepMind Control ou Atari, donc l'histoire de généralisation est limitée à la manipulation pis à la navigation pour l'instant.

Si tu planifies au-dessus de modèles de monde appris pis tu frappes le mur des longs horizons, les trois idées de GRASP sont séparables. Tu peux adopter la levée d'état virtuel pour l'optimisation parallèle, la stochasticité état-seulement pour échapper aux minimums locaux, pis le remodelage de gradient pour stabiliser à travers les encodeurs visuels. La liste d'auteurs vaut la peine d'être notée. LeCun pis Rabbat chez Meta AI collaborant avec le groupe Krishnapriyan de Berkeley suggère que ça s'inscrit dans la poussée plus large de planification de modèles de monde de Meta autour de JEPA pis V-JEPA, ce qui compte pour la rapidité à laquelle ces techniques vont apparaître dans les modèles en aval.