सीखे हुए world models बड़े और अधिक capable होते जा रहे हैं, लेकिन लंबी horizons पर उन पर planning नाजुक है। गहरे rollouts ill-conditioned computation graphs पैदा करते हैं, loss landscape स्थानीय minima से भरा असमतल है, और vision encoders के माध्यम से state-input gradients adversarially नाजुक हैं। Michael Psenka, Mike Rabbat, Aditi Krishnapriyan, Yann LeCun, और Amir Bar द्वारा GRASP पर BAIR blog post ठीक इसी failure mode को target करती है। Paper arxiv 2602.00475 पर है project site michaelpsenka.io/grasp के साथ।
तीन idea काम करते हैं। पहला, virtual-state lifting rollout को एक collocation problem के रूप में पुनर्परिभाषित करता है: प्रत्येक timestep को serially predict करने के बजाय, optimizer एक साथ states और actions पर खोज करता है जिसमें सीखी हुई dynamics soft constraints के रूप में दिखती हैं। प्रत्येक timestep की prediction केवल स्थानीय variables पर निर्भर करती है, इसलिए पूरी T-step trajectory समानांतर में optimize की जा सकती है। दूसरा, state stochasticity injection optimization के दौरान state iterates में Gaussian noise जोड़ता है जबकि actions deterministic gradient updates लेते रहते हैं। यह optimizer को randomized action selection की variance पेश किए बिना basins के बीच धकेलता है। तीसरा, gradient reshaping dynamics function के state input के माध्यम से बहने वाले gradients को रोकता है (visual model के माध्यम से नाजुक path) जबकि actions पर gradients बनाए रखता है, और एक dense goal-shaping term जोड़ता है जो हर timestep पर model outputs को goal से मिलाता है बजाय केवल final state के।
संख्याएं ही बात हैं। Push-T manipulation पर, GRASP horizon 60 पर 26.2% success hit करता है 49.1 सेकंड planning time के साथ। CEM उसी horizon पर 7.2% hit करता है 83.1 सेकंड के साथ। Horizon को 80 तक धकेलें और GRASP 10.4% पर है 58.9 सेकंड में; CEM 2.8% पर है 132 सेकंड में। Baseline methods ढह जाते हैं — standard gradient descent और latent collocation (LatCo) H=60 पर 20% से नीचे गिरते हैं। GRASP लंबी horizons पर न केवल तेज़ चलता है, यह उस regime में रहता है जहां planning वास्तव में उपयोगी trajectories पैदा करती है। Post में benchmarks BallNav (navigation) और Push-T (manipulation) को कवर करते हैं; DeepMind Control या Atari जैसे standard RL suites पर results नहीं दिखाए गए हैं, तो generalization story फिलहाल manipulation और navigation तक सीमित है।
अगर आप सीखे हुए world models पर planning कर रहे हैं और लंबी horizon की दीवार से टकरा रहे हैं, GRASP के तीन ideas अलग-अलग हैं। आप virtual-state lifting को parallel optimization के लिए, state-only stochasticity को स्थानीय minima से भागने के लिए, और gradient reshaping को vision encoders के माध्यम से stabilize करने के लिए अपना सकते हैं। Author list ध्यान देने लायक है। Meta AI पर LeCun और Rabbat Berkeley के Krishnapriyan group के साथ मिलकर काम कर रहे हैं, यह सुझाता है कि यह JEPA और V-JEPA के आसपास Meta के व्यापक world-model planning push के अंदर बैठता है, जो इन techniques के downstream models में कितनी जल्दी दिखने के लिए मायने रखता है।
