Ai2 发布 MolmoAct 2：从零重建的 VLA、720 小时双臂数据、比 v1 快 37 倍

Allen Institute（Ai2）今天发布 MolmoAct 2，他们开源视觉-语言-动作（VLA）基础模型的从零重建。关键数字：建在 Molmo 2-ER（在 300 万 image-grounded 推理样本上训练的 Molmo embodied-reasoning 变种）之上，补充全新 MolmoAct 2-Bimanual YAM 数据集，包含 720+ 小时双臂机器人轨迹，语言标注从 7.1 万独特标签扩展到 ~14.6 万，真实任务相对 MolmoAct v1 提速 37 倍。真实验证在 Stanford 的 Cong Lab，CRISPR 相关实验室工作。模型是开源 foundation；训练代码 release 在计划中。

架构血统在这里重要。MolmoAct 原始的招 — 让它区别于 RT-2 或 OpenVLA 这种文本-token VLA 的 — 是通过深度感知的 perception token 而不是 language token 来对场景语义做 grounding。模型跑三个自回归阶段：spatially-grounded perception token（用 VQVAE 提取，通过深度和 positional embedding 编码几何结构）、image space 中的路径点 sketching 视觉推理 trace、然后给硬件的 low-level action 命令。MolmoAct v1 在它的 eval 上拿到 72.1% out-of-distribution 成功率，击败 Physical Intelligence、Google、Microsoft、NVIDIA 的闭源 VLA。v2 保留 depth-token 路径，但增加专门的「action expert」原生做 3D 推理，双臂训练数据闭合了到 humanoid-class 操控任务的 gap — 两臂协调才是真正难的部分。37 倍提速的 claim 需要上下文 — Ai2 没披露这是推理延迟、规划吞吐还是端到端任务完成，也没说哪个 baseline（v1 eval harness 还是某个可比的闭源 VLA）是分母。

生态读法：Ai2 是越来越闭源的 VLA 竞赛中的开源对位。Physical Intelligence 的 π0/π0.5、Figure 的 Helix、NVIDIA 的 Groot N1、Google 的 RT-2 都在墙后或在选择性授权后面。MolmoAct 2 是这一代唯一完全开源的 foundation，真正 ship 了你能为你的机器人 stack 微调的 policy — 而双臂数据集本身就比大多数开源机器人数据集装的多。对训练自己机器人 policy 的 builder，这改变了数学：以前的选择是缺乏灵巧操控数据的开源基础（Octo、OpenVLA、RDT），或者无法扩展的闭源 checkpoint。有了 MolmoAct 2 加 YAM 数据集，开源路径现在包含闭源 labs 押注 builder 达不到的数据规模。专有 VLA labs 即将发现他们的护城河怎么对抗一个明确为竞争而重建的开源 foundation。

实际动作：如果你在双臂硬件上训练机器人 policy，MolmoAct 2-Bimanual YAM 一旦落地就值得 download。在 Molmo 2-ER 300 万样本基础上 pretrain 意味着 perception 这一侧在你碰任务特定数据之前已经很扎实。如果你做单臂，perception-token 架构能迁移，但你复制的双臂收益少一些。要看的 eval 边界：Ai2 没发布对 π0.5、Helix 或 Groot N1 的比较数字 — 这些比较会从下个月的独立 benchmark 中浮现，那才是真正的 frontier 读法落定的地方。37 倍提速是头条；真正的问题是当你把 MolmoAct 2 和闭源 VLA 在同一 task suite 上正面对决时，那个数字会变成什么。眼下，builder 拿到了三天前还不存在的开源 foundation。

Ai2 发布 MolmoAct 2：从零重建的 VLA、720 小时双臂数据、比 v1 快 37 倍

更多新闻