BAIR 的 GRASP 让基于梯度的规划在前期方法崩溃的 80 步长视界上也能工作

学习到的世界模型正变得越来越大、越来越能干，但在长视界上对其做规划仍然脆弱。深度 rollout 产生病态的计算图，损失地貌起伏不平布满局部最小值，通过视觉编码器的状态-输入梯度在对抗意义上是脆弱的。BAIR 博客这篇 GRASP 论文，作者为 Michael Psenka、Mike Rabbat、Aditi Krishnapriyan、Yann LeCun 和 Amir Bar，精确针对这一失败模式。论文在 arxiv 2602.00475，项目站点是 michaelpsenka.io/grasp。

三个想法完成了工作。第一，虚拟状态提升把 rollout 重新表述为配点问题：不再逐步串行预测每个时间步，而是让优化器同时在状态和动作上搜索，把学到的动力学作为软约束。每一步的预测只依赖局部变量，所以整条 T 步轨迹可以并行优化。第二，状态随机性注入在优化过程中给状态迭代加高斯噪声，动作仍走确定性梯度更新。这把优化器在不同盆地之间推移，又不引入随机动作选择的方差。第三，梯度重塑阻断梯度流经动力学函数的状态输入（穿过视觉模型的脆弱路径），同时保留作用在动作上的梯度，再叠加一个密集的目标成形项，在每一个时间步而不仅最终状态把模型输出和目标匹配起来。

数字才是重点。在 Push-T 操控任务上，GRASP 在视界 60 拿到 26.2% 成功率，规划耗时 49.1 秒；同样视界的 CEM 只有 7.2%，耗时 83.1 秒。把视界推到 80，GRASP 是 10.4%，耗时 58.9 秒；CEM 是 2.8%，132 秒。基线方法崩溃——标准梯度下降和潜空间配点（LatCo）在 H=60 就跌到 20% 以下。GRASP 在长视界上不仅跑得更快，它还待在那种规划真的能产生有用轨迹的区间里。博客里的基准覆盖 BallNav（导航）和 Push-T（操控）；没有展示在 DeepMind Control 或 Atari 这样的标准 RL 套件上的结果，所以目前的泛化故事只限于操控和导航。

如果你在学习到的世界模型上做规划、撞上长视界这堵墙，GRASP 的三个点子是可分离的。你可以采用虚拟状态提升做并行优化、只加状态的随机性来逃离局部最小值、以及梯度重塑来稳定穿过视觉编码器。作者列表值得一记。Meta AI 的 LeCun 和 Rabbat 与 Berkeley 的 Krishnapriyan 组合作，表明这属于 Meta 围绕 JEPA 与 V-JEPA 的更大规模世界模型规划推进的一部分，这关乎这些技术多快会出现在下游模型里。

BAIR 的 GRASP 让基于梯度的规划在前期方法崩溃的 80 步长视界上也能工作

更多新闻