El Allen Institute (Ai2) liberó MolmoAct 2 hoy, una reconstrucción desde cero de su modelo de fundación visión-lenguaje-acción (VLA) open-source. Números clave: construido sobre Molmo 2-ER (la variante embodied-reasoning de Molmo entrenada en 3M ejemplos de razonamiento image-grounded), suplementado con el nuevo dataset MolmoAct 2-Bimanual YAM de 720+ horas de trayectorias robot a dos brazos, anotaciones de lenguaje expandidas de 71k labels únicos a ~146k, y aceleración 37x en tareas reales vs MolmoAct v1. Validación real en el Cong Lab de Stanford en trabajo de laboratorio relacionado a CRISPR. Los modelos son fundación abierta; release del código de entrenamiento planeada.

La línea arquitectónica importa acá. La movida original de MolmoAct — y lo que lo diferencia de VLAs de tokens textuales como RT-2 u OpenVLA — es el grounding semántico de escena vía perception tokens conscientes de profundidad en lugar de language tokens. El modelo corre tres etapas autorregresivas: perception tokens spatially-grounded (extraídos con un VQVAE, codificando estructura geométrica vía profundidad y positional embeddings), waypoints en espacio imagen sketching la traza de razonamiento visual, luego comandos de acción low-level para el hardware. MolmoAct v1 marcó 72,1% de éxito out-of-distribution en su eval, ganándole a los VLAs cerrados de Physical Intelligence, Google, Microsoft, NVIDIA. v2 mantiene el enfoque depth-token pero agrega un «action expert» dedicado haciendo razonamiento 3D de forma nativa, y los datos de entrenamiento bimanuales cierran el gap hacia tareas de manipulación clase-humanoide donde la coordinación a dos brazos es la parte realmente dura. El claim 37x speedup necesita contexto — Ai2 no divulgó si es latencia de inferencia, throughput de planificación, o task completion end-to-end, ni qué baseline (el harness de eval v1 o un VLA cerrado comparable) es el divisor.

Lectura ecosystem: Ai2 es el contrapeso open-source en la carrera VLA que se está cerrando cada vez más. El π0/π0.5 de Physical Intelligence, el Helix de Figure, el Groot N1 de NVIDIA, el RT-2 de Google están detrás de muros o en licensing selectivo. MolmoAct 2 es la única fundación totalmente abierta de esta generación que shipea policies de verdad que podés fine-tunear para tu stack de robot — y el dataset bimanual solo carga más que la mayoría de datasets robóticos abiertos. Para builders entrenando sus propias policies robot, eso cambia la matemática: antes la elección era entre una base abierta sin datos de manipulación diestra (Octo, OpenVLA, RDT) o un checkpoint cerrado imposible de extender. Con MolmoAct 2 más el dataset YAM, el camino abierto ahora incluye la escala de datos que los labs cerrados apostaban inalcanzable para builders. Los labs VLA propietarios están a punto de descubrir cómo sus moats aguantan contra una fundación abierta reconstruida explícitamente para competirles.

Movida práctica: si estás entrenando policies de robot sobre hardware a dos brazos, MolmoAct 2-Bimanual YAM vale un download cuando aterrice. Pretrain sobre la base de 3M ejemplos de Molmo 2-ER significa que el lado perception está sólido antes de que toques tus datos task-específicos. Si hacés single-arm, la arquitectura perception-token transfiere, pero replicarás menos del gain bimanual. La frontera de eval a vigilar: Ai2 no publicó comparaciones numéricas contra π0.5, Helix o Groot N1 — esas comparaciones van a emerger de benchmarks independientes en el próximo mes, y ahí es donde la lectura real de frontier se asienta. El 37x speedup es el titular; la pregunta real es qué le pasa a ese número cuando ponés MolmoAct 2 cara-a-cara con los VLAs cerrados en la misma task suite. Por ahora, builders tienen una fundación abierta que no existía hace tres días.