L'Allen Institute (Ai2) a publié MolmoAct 2 aujourd'hui, une reconstruction from scratch de leur modèle de fondation vision-language-action (VLA) open-source. Chiffres clés : bâti sur Molmo 2-ER (la variante embodied-reasoning de Molmo entraînée sur 3M d'exemples de raisonnement image-grounded), enrichi du nouveau dataset MolmoAct 2-Bimanual YAM avec 720+ heures de trajectoires robot à deux bras, annotations langage passées de 71k labels uniques à ~146k, et accélération 37x sur tâches réelles vs MolmoAct v1. Validation réelle au Cong Lab de Stanford sur du travail de labo lié à CRISPR. Les modèles sont fondation ouverte ; release du code de training prévue.
La lignée architecturale compte ici. Le move original de MolmoAct — ce qui le différencie des VLAs token-textuels comme RT-2 ou OpenVLA — c'est le grounding sémantique de scène via des perception tokens conscients de la profondeur plutôt que des language tokens. Le modèle tourne trois étages autorégressifs : perception tokens spatially-grounded (extraits avec un VQVAE, encodant la structure géométrique via profondeur et positional embeddings), waypoints dans l'espace image qui sketchent la trace de raisonnement visuel, puis commandes d'action low-level pour le hardware. MolmoAct v1 a fait 72,1 % de succès out-of-distribution sur son eval, battant les VLAs fermés de Physical Intelligence, Google, Microsoft, NVIDIA. v2 garde l'approche depth-token mais ajoute un « action expert » dédié faisant du raisonnement 3D nativement, et les données de training bimanuelles ferment le gap vers les tâches de manipulation classe-humanoïde où la coordination à deux bras est la partie réellement dure. Le claim 37x speedup a besoin de contexte — Ai2 n'a pas divulgué si c'est de la latence d'inférence, du throughput de planification, ou du task completion end-to-end, ni quel baseline (le harness d'eval v1 ou un VLA fermé comparable) est le diviseur.
Lecture ecosystem : Ai2 est le contrepoids open-source dans la course VLA qui se referme de plus en plus. Le π0/π0.5 de Physical Intelligence, le Helix de Figure, le Groot N1 de NVIDIA, le RT-2 de Google sont derrière des murs ou en licensing sélectif. MolmoAct 2 est la seule fondation totalement ouverte de cette génération qui ship vraiment des policies que tu peux fine-tuner pour ta stack robot — et le dataset bimanuel à lui seul porte plus que la plupart des datasets robotiques ouverts. Pour les builders qui entraînent leurs propres policies robot, ça change les maths : avant, le choix était entre une base ouverte qui manquait de données de manipulation dextre (Octo, OpenVLA, RDT) ou un checkpoint fermé impossible à étendre. Avec MolmoAct 2 plus le dataset YAM, le chemin ouvert inclut maintenant l'échelle de données que les labs fermés pariaient inatteignable pour les builders. Les labs VLA proprio vont découvrir comment leurs moats tiennent contre une fondation ouverte rebâtie explicitement pour les concurrencer.
Move pratique : si tu entraînes des policies robot sur du hardware à deux bras, MolmoAct 2-Bimanual YAM mérite un download dès qu'il est dispo. Le pretrain sur la base 3M-exemples de Molmo 2-ER veut dire que le côté perception est solide avant même que tu touches à tes données task-spécifiques. Si tu fais du single-arm, l'architecture perception-token transfère, mais tu répliqueras moins du gain bimanuel. La frontière d'eval à surveiller : Ai2 n'a pas publié de comparaisons chiffres contre π0.5, Helix ou Groot N1 — ces comparaisons émergeront des benchmarks indépendants dans le prochain mois, et c'est là que la lecture de frontier vraie se règle. Le 37x speedup, c'est la manchette ; la vraie question, c'est ce que devient ce chiffre quand tu mets MolmoAct 2 face-à-face avec les VLAs fermés sur la même task suite. Pour l'instant, les builders ont une fondation ouverte qui n'existait pas il y a trois jours.
