Allen Institute(Ai2)今天發布 MolmoAct 2,他們開源視覺-語言-動作(VLA)基礎模型的從零重建。關鍵數字:建在 Molmo 2-ER(在 300 萬 image-grounded 推理樣本上訓練的 Molmo embodied-reasoning 變種)之上,補充全新 MolmoAct 2-Bimanual YAM 數據集,包含 720+ 小時雙臂機器人軌跡,語言標註從 7.1 萬獨特標籤擴展到 ~14.6 萬,真實任務相對 MolmoAct v1 提速 37 倍。真實驗證在 Stanford 的 Cong Lab,CRISPR 相關實驗室工作。模型是開源 foundation;訓練代碼 release 在計劃中。

架構血統在這裡重要。MolmoAct 原始的招 — 讓它區別於 RT-2 或 OpenVLA 這種文字-token VLA 的 — 是透過深度感知的 perception token 而不是 language token 來對場景語意做 grounding。模型跑三個自迴歸階段:spatially-grounded perception token(用 VQVAE 擷取,透過深度和 positional embedding 編碼幾何結構)、image space 中的路徑點 sketching 視覺推理 trace、然後給硬體的 low-level action 命令。MolmoAct v1 在它的 eval 上拿到 72.1% out-of-distribution 成功率,擊敗 Physical Intelligence、Google、Microsoft、NVIDIA 的閉源 VLA。v2 保留 depth-token 路徑,但增加專門的「action expert」原生做 3D 推理,雙臂訓練數據閉合了到 humanoid-class 操控任務的 gap — 兩臂協調才是真正難的部分。37 倍提速的 claim 需要上下文 — Ai2 沒披露這是推理延遲、規劃吞吐還是端到端任務完成,也沒說哪個 baseline(v1 eval harness 還是某個可比的閉源 VLA)是分母。

生態讀法:Ai2 是越來越閉源的 VLA 競賽中的開源對位。Physical Intelligence 的 π0/π0.5、Figure 的 Helix、NVIDIA 的 Groot N1、Google 的 RT-2 都在牆後或在選擇性授權後面。MolmoAct 2 是這一代唯一完全開源的 foundation,真正 ship 了你能為你的機器人 stack 微調的 policy — 而雙臂數據集本身就比大多數開源機器人數據集裝的多。對訓練自己機器人 policy 的 builder,這改變了數學:以前的選擇是缺乏靈巧操控數據的開源基礎(Octo、OpenVLA、RDT),或者無法擴展的閉源 checkpoint。有了 MolmoAct 2 加 YAM 數據集,開源路徑現在包含閉源 labs 押注 builder 達不到的數據規模。專有 VLA labs 即將發現他們的護城河怎麼對抗一個明確為競爭而重建的開源 foundation。

實際動作:如果你在雙臂硬體上訓練機器人 policy,MolmoAct 2-Bimanual YAM 一旦落地就值得 download。在 Molmo 2-ER 300 萬樣本基礎上 pretrain 意味著 perception 這一側在你碰任務特定數據之前已經很紮實。如果你做單臂,perception-token 架構能遷移,但你複製的雙臂收益少一些。要看的 eval 邊界:Ai2 沒發布對 π0.5、Helix 或 Groot N1 的比較數字 — 這些比較會從下個月的獨立 benchmark 中浮現,那才是真正的 frontier 讀法落定的地方。37 倍提速是頭條;真正的問題是當你把 MolmoAct 2 和閉源 VLA 在同一 task suite 上正面對決時,那個數字會變成什麼。眼下,builder 拿到了三天前還不存在的開源 foundation。