BAIR 的 GRASP 讓基於梯度的規劃在前期方法崩潰的 80 步長視界上也能工作

學習到的世界模型正變得越來越大、越來越能幹，但在長視界上對其做規劃仍然脆弱。深度 rollout 產生病態的計算圖，損失地貌起伏不平布滿局部最小值，通過視覺編碼器的狀態-輸入梯度在對抗意義上是脆弱的。BAIR 部落格這篇 GRASP 論文，作者為 Michael Psenka、Mike Rabbat、Aditi Krishnapriyan、Yann LeCun 和 Amir Bar，精確針對這一失敗模式。論文在 arxiv 2602.00475，專案站點是 michaelpsenka.io/grasp。

三個想法完成了工作。第一，虛擬狀態提升把 rollout 重新表述為配點問題：不再逐步串行預測每個時間步，而是讓優化器同時在狀態和動作上搜索，把學到的動力學作為軟約束。每一步的預測只依賴局部變量，所以整條 T 步軌跡可以並行優化。第二，狀態隨機性注入在優化過程中給狀態迭代加高斯噪聲，動作仍走確定性梯度更新。這把優化器在不同盆地之間推移，又不引入隨機動作選擇的方差。第三，梯度重塑阻斷梯度流經動力學函數的狀態輸入（穿過視覺模型的脆弱路徑），同時保留作用在動作上的梯度，再疊加一個密集的目標成形項，在每一個時間步而不僅最終狀態把模型輸出和目標匹配起來。

數字才是重點。在 Push-T 操控任務上，GRASP 在視界 60 拿到 26.2% 成功率，規劃耗時 49.1 秒；同樣視界的 CEM 只有 7.2%，耗時 83.1 秒。把視界推到 80，GRASP 是 10.4%，耗時 58.9 秒；CEM 是 2.8%，132 秒。基線方法崩潰——標準梯度下降和潛空間配點（LatCo）在 H=60 就跌到 20% 以下。GRASP 在長視界上不僅跑得更快，它還待在那種規劃真的能產生有用軌跡的區間裡。部落格裡的基準覆蓋 BallNav（導航）和 Push-T（操控）；沒有展示在 DeepMind Control 或 Atari 這樣的標準 RL 套件上的結果，所以目前的泛化故事只限於操控和導航。

如果你在學習到的世界模型上做規劃、撞上長視界這堵牆，GRASP 的三個點子是可分離的。你可以採用虛擬狀態提升做並行優化、只加狀態的隨機性來逃離局部最小值、以及梯度重塑來穩定穿過視覺編碼器。作者列表值得一記。Meta AI 的 LeCun 和 Rabbat 與 Berkeley 的 Krishnapriyan 組合作，表明這屬於 Meta 圍繞 JEPA 與 V-JEPA 的更大規模世界模型規劃推進的一部分，這關乎這些技術多快會出現在下游模型裡。

BAIR 的 GRASP 讓基於梯度的規劃在前期方法崩潰的 80 步長視界上也能工作

更多新聞