学习到的世界模型正变得越来越大、越来越能干,但在长视界上对其做规划仍然脆弱。深度 rollout 产生病态的计算图,损失地貌起伏不平布满局部最小值,通过视觉编码器的状态-输入梯度在对抗意义上是脆弱的。BAIR 博客这篇 GRASP 论文,作者为 Michael Psenka、Mike Rabbat、Aditi Krishnapriyan、Yann LeCun 和 Amir Bar,精确针对这一失败模式。论文在 arxiv 2602.00475,项目站点是 michaelpsenka.io/grasp。
三个想法完成了工作。第一,虚拟状态提升把 rollout 重新表述为配点问题:不再逐步串行预测每个时间步,而是让优化器同时在状态和动作上搜索,把学到的动力学作为软约束。每一步的预测只依赖局部变量,所以整条 T 步轨迹可以并行优化。第二,状态随机性注入在优化过程中给状态迭代加高斯噪声,动作仍走确定性梯度更新。这把优化器在不同盆地之间推移,又不引入随机动作选择的方差。第三,梯度重塑阻断梯度流经动力学函数的状态输入(穿过视觉模型的脆弱路径),同时保留作用在动作上的梯度,再叠加一个密集的目标成形项,在每一个时间步而不仅最终状态把模型输出和目标匹配起来。
数字才是重点。在 Push-T 操控任务上,GRASP 在视界 60 拿到 26.2% 成功率,规划耗时 49.1 秒;同样视界的 CEM 只有 7.2%,耗时 83.1 秒。把视界推到 80,GRASP 是 10.4%,耗时 58.9 秒;CEM 是 2.8%,132 秒。基线方法崩溃——标准梯度下降和潜空间配点(LatCo)在 H=60 就跌到 20% 以下。GRASP 在长视界上不仅跑得更快,它还待在那种规划真的能产生有用轨迹的区间里。博客里的基准覆盖 BallNav(导航)和 Push-T(操控);没有展示在 DeepMind Control 或 Atari 这样的标准 RL 套件上的结果,所以目前的泛化故事只限于操控和导航。
如果你在学习到的世界模型上做规划、撞上长视界这堵墙,GRASP 的三个点子是可分离的。你可以采用虚拟状态提升做并行优化、只加状态的随机性来逃离局部最小值、以及梯度重塑来稳定穿过视觉编码器。作者列表值得一记。Meta AI 的 LeCun 和 Rabbat 与 Berkeley 的 Krishnapriyan 组合作,表明这属于 Meta 围绕 JEPA 与 V-JEPA 的更大规模世界模型规划推进的一部分,这关乎这些技术多快会出现在下游模型里。
