學習到的世界模型正變得越來越大、越來越能幹,但在長視界上對其做規劃仍然脆弱。深度 rollout 產生病態的計算圖,損失地貌起伏不平布滿局部最小值,通過視覺編碼器的狀態-輸入梯度在對抗意義上是脆弱的。BAIR 部落格這篇 GRASP 論文,作者為 Michael Psenka、Mike Rabbat、Aditi Krishnapriyan、Yann LeCun 和 Amir Bar,精確針對這一失敗模式。論文在 arxiv 2602.00475,專案站點是 michaelpsenka.io/grasp。

三個想法完成了工作。第一,虛擬狀態提升把 rollout 重新表述為配點問題:不再逐步串行預測每個時間步,而是讓優化器同時在狀態和動作上搜索,把學到的動力學作為軟約束。每一步的預測只依賴局部變量,所以整條 T 步軌跡可以並行優化。第二,狀態隨機性注入在優化過程中給狀態迭代加高斯噪聲,動作仍走確定性梯度更新。這把優化器在不同盆地之間推移,又不引入隨機動作選擇的方差。第三,梯度重塑阻斷梯度流經動力學函數的狀態輸入(穿過視覺模型的脆弱路徑),同時保留作用在動作上的梯度,再疊加一個密集的目標成形項,在每一個時間步而不僅最終狀態把模型輸出和目標匹配起來。

數字才是重點。在 Push-T 操控任務上,GRASP 在視界 60 拿到 26.2% 成功率,規劃耗時 49.1 秒;同樣視界的 CEM 只有 7.2%,耗時 83.1 秒。把視界推到 80,GRASP 是 10.4%,耗時 58.9 秒;CEM 是 2.8%,132 秒。基線方法崩潰——標準梯度下降和潛空間配點(LatCo)在 H=60 就跌到 20% 以下。GRASP 在長視界上不僅跑得更快,它還待在那種規劃真的能產生有用軌跡的區間裡。部落格裡的基準覆蓋 BallNav(導航)和 Push-T(操控);沒有展示在 DeepMind Control 或 Atari 這樣的標準 RL 套件上的結果,所以目前的泛化故事只限於操控和導航。

如果你在學習到的世界模型上做規劃、撞上長視界這堵牆,GRASP 的三個點子是可分離的。你可以採用虛擬狀態提升做並行優化、只加狀態的隨機性來逃離局部最小值、以及梯度重塑來穩定穿過視覺編碼器。作者列表值得一記。Meta AI 的 LeCun 和 Rabbat 與 Berkeley 的 Krishnapriyan 組合作,表明這屬於 Meta 圍繞 JEPA 與 V-JEPA 的更大規模世界模型規劃推進的一部分,這關乎這些技術多快會出現在下游模型裡。