Allen Institute (Ai2) ने आज MolmoAct 2 release किया, उनके open-source vision-language-action (VLA) foundation model का scratch से rebuild। key numbers: Molmo 2-ER पर बना (Molmo का embodied-reasoning variant जो 3M image-grounded reasoning examples पर train है), नए MolmoAct 2-Bimanual YAM dataset से supplemented जिसमें 720+ घंटे dual-armed robot trajectories हैं, language annotations 71k unique labels से ~146k तक expanded, और real-world tasks पर MolmoAct v1 से 37x speedup। real-world validation Stanford के Cong Lab में CRISPR-related lab work पर। models open foundation हैं; training code release planned है।

architectural lineage यहाँ मायने रखती है। MolmoAct का original move — जो उसे RT-2 या OpenVLA जैसे text-token VLAs से अलग करता है — depth-aware perception tokens के through scene semantics ground करना है, language tokens के बजाय। model तीन autoregressive stages चलाता है: spatially-grounded perception tokens (VQVAE से extract, depth और positional embeddings के through geometric structure encode करते हैं), image space में waypoints visual reasoning trace sketch करते हुए, फिर hardware के लिए low-level action commands। MolmoAct v1 ने अपने eval पर 72.1% out-of-distribution success मारा, Physical Intelligence, Google, Microsoft, NVIDIA के closed VLAs को हराया। v2 depth-token approach रखता है पर एक dedicated «action expert» add करता है जो 3D reasoning natively करता है, और bimanual training data humanoid-class manipulation tasks के gap को बंद करता है जहाँ two-arm coordination ही real hard part है। 37x speedup claim को context चाहिए — Ai2 ने disclose नहीं किया कि ये inference latency है, planning throughput, या end-to-end task completion, और कौन-सा baseline (v1 eval harness या कोई comparable closed VLA) divisor है।

ecosystem reading: Ai2 बढ़ते बंद होते जा रहे VLA race में open-source counterweight है। Physical Intelligence का π0/π0.5, Figure का Helix, NVIDIA का Groot N1, Google का RT-2 — सब walls के पीछे या selective licensing पर हैं। MolmoAct 2 इस generation में अकेली पूरी तरह open foundation है जो वाकई policies ship करती है जिन्हें आप अपने robot stack के लिए fine-tune कर सकते हो — और bimanual dataset अकेला ही ज़्यादातर open robotics datasets से बड़ा है। अपनी robot policies train करने वाले builders के लिए ये math बदलता है: पहले choice थी dexterous manipulation data की कमी वाले open base (Octo, OpenVLA, RDT) या एक closed checkpoint जिसे extend नहीं कर सकते थे। MolmoAct 2 plus YAM dataset के साथ, open path में अब वो data scale है जो closed labs बेट कर रहे थे कि builders तक पहुँच नहीं पाएँगे। Proprietary VLA labs ज़ल्दी पता लगाने वाले हैं कि उनके moats एक open foundation के ख़िलाफ़ कैसे टिकते हैं जो explicitly उनसे compete करने को rebuilt है।

practical move: अगर आप dual-armed hardware पर robot policies train कर रहे हो, MolmoAct 2-Bimanual YAM land होते ही download के लायक है। Molmo 2-ER के 3M-example base पर pretraining का मतलब है perception side solid है इससे पहले कि आप अपना task-specific data भी छुओ। अगर single-arm काम कर रहे हो, perception-token architecture transfer होती है, पर bimanual gain का कम replicate होगा। eval boundary watch करने को: Ai2 ने π0.5, Helix या Groot N1 के against comparison numbers publish नहीं किए — वो comparisons अगले महीने independent benchmarks से emerge करेंगे, और वहीं actual frontier reading settle होगी। 37x speedup headline है; असली सवाल ये है कि उस number का क्या होगा जब आप MolmoAct 2 को closed VLAs के साथ same task suite पर head-to-head लगाओ। फ़िलहाल, builders को एक open foundation मिली है जो तीन दिन पहले मौजूद नहीं थी।