Allen Institute(Ai2)今天发布 MolmoAct 2,他们开源视觉-语言-动作(VLA)基础模型的从零重建。关键数字:建在 Molmo 2-ER(在 300 万 image-grounded 推理样本上训练的 Molmo embodied-reasoning 变种)之上,补充全新 MolmoAct 2-Bimanual YAM 数据集,包含 720+ 小时双臂机器人轨迹,语言标注从 7.1 万独特标签扩展到 ~14.6 万,真实任务相对 MolmoAct v1 提速 37 倍。真实验证在 Stanford 的 Cong Lab,CRISPR 相关实验室工作。模型是开源 foundation;训练代码 release 在计划中。

架构血统在这里重要。MolmoAct 原始的招 — 让它区别于 RT-2 或 OpenVLA 这种文本-token VLA 的 — 是通过深度感知的 perception token 而不是 language token 来对场景语义做 grounding。模型跑三个自回归阶段:spatially-grounded perception token(用 VQVAE 提取,通过深度和 positional embedding 编码几何结构)、image space 中的路径点 sketching 视觉推理 trace、然后给硬件的 low-level action 命令。MolmoAct v1 在它的 eval 上拿到 72.1% out-of-distribution 成功率,击败 Physical Intelligence、Google、Microsoft、NVIDIA 的闭源 VLA。v2 保留 depth-token 路径,但增加专门的「action expert」原生做 3D 推理,双臂训练数据闭合了到 humanoid-class 操控任务的 gap — 两臂协调才是真正难的部分。37 倍提速的 claim 需要上下文 — Ai2 没披露这是推理延迟、规划吞吐还是端到端任务完成,也没说哪个 baseline(v1 eval harness 还是某个可比的闭源 VLA)是分母。

生态读法:Ai2 是越来越闭源的 VLA 竞赛中的开源对位。Physical Intelligence 的 π0/π0.5、Figure 的 Helix、NVIDIA 的 Groot N1、Google 的 RT-2 都在墙后或在选择性授权后面。MolmoAct 2 是这一代唯一完全开源的 foundation,真正 ship 了你能为你的机器人 stack 微调的 policy — 而双臂数据集本身就比大多数开源机器人数据集装的多。对训练自己机器人 policy 的 builder,这改变了数学:以前的选择是缺乏灵巧操控数据的开源基础(Octo、OpenVLA、RDT),或者无法扩展的闭源 checkpoint。有了 MolmoAct 2 加 YAM 数据集,开源路径现在包含闭源 labs 押注 builder 达不到的数据规模。专有 VLA labs 即将发现他们的护城河怎么对抗一个明确为竞争而重建的开源 foundation。

实际动作:如果你在双臂硬件上训练机器人 policy,MolmoAct 2-Bimanual YAM 一旦落地就值得 download。在 Molmo 2-ER 300 万样本基础上 pretrain 意味着 perception 这一侧在你碰任务特定数据之前已经很扎实。如果你做单臂,perception-token 架构能迁移,但你复制的双臂收益少一些。要看的 eval 边界:Ai2 没发布对 π0.5、Helix 或 Groot N1 的比较数字 — 这些比较会从下个月的独立 benchmark 中浮现,那才是真正的 frontier 读法落定的地方。37 倍提速是头条;真正的问题是当你把 MolmoAct 2 和闭源 VLA 在同一 task suite 上正面对决时,那个数字会变成什么。眼下,builder 拿到了三天前还不存在的开源 foundation。