O Allen Institute (Ai2) lançou MolmoAct 2 hoje, uma reconstrução do zero do seu modelo de fundação visão-linguagem-ação (VLA) open-source. Números chave: construído sobre Molmo 2-ER (a variante embodied-reasoning de Molmo treinada em 3M exemplos de raciocínio image-grounded), suplementado com o novo dataset MolmoAct 2-Bimanual YAM de 720+ horas de trajetórias de robô de dois braços, anotações de linguagem expandidas de 71k labels únicos para ~146k, e aceleração 37x em tarefas reais vs MolmoAct v1. Validação real no Cong Lab de Stanford em trabalho de laboratório relacionado ao CRISPR. Os modelos são fundação aberta; release do código de treino planejado.

A linhagem arquitetônica importa aqui. A jogada original do MolmoAct — e o que o diferencia de VLAs de tokens textuais como RT-2 ou OpenVLA — é o grounding semântico de cena via perception tokens conscientes de profundidade em vez de language tokens. O modelo roda três estágios autorregressivos: perception tokens spatially-grounded (extraídos com um VQVAE, codificando estrutura geométrica via profundidade e positional embeddings), waypoints no espaço da imagem fazendo sketch da trilha de raciocínio visual, depois comandos de ação low-level para o hardware. MolmoAct v1 atingiu 72,1% de sucesso out-of-distribution no seu eval, superando os VLAs fechados da Physical Intelligence, Google, Microsoft, NVIDIA. v2 mantém a abordagem depth-token mas adiciona um «action expert» dedicado fazendo raciocínio 3D nativamente, e os dados de treino bimanuais fecham o gap para tarefas de manipulação classe-humanoide em que a coordenação de dois braços é a parte realmente difícil. O claim de 37x speedup precisa de contexto — a Ai2 não divulgou se é latência de inferência, throughput de planejamento, ou task completion end-to-end, nem qual baseline (o harness de eval v1 ou um VLA fechado comparável) é o divisor.

Leitura ecossistema: a Ai2 é o contrapeso open-source na corrida VLA que está se fechando cada vez mais. O π0/π0.5 da Physical Intelligence, o Helix da Figure, o Groot N1 da NVIDIA, o RT-2 do Google estão atrás de muros ou em licenciamento seletivo. MolmoAct 2 é a única fundação totalmente aberta dessa geração que shippa policies de verdade que você pode fine-tunear para o seu stack de robô — e o dataset bimanual sozinho carrega mais do que a maioria dos datasets robóticos abertos. Para builders treinando suas próprias policies de robô, isso muda a matemática: antes a escolha era entre uma base aberta sem dados de manipulação destra (Octo, OpenVLA, RDT) ou um checkpoint fechado impossível de estender. Com MolmoAct 2 mais o dataset YAM, o caminho aberto agora inclui a escala de dados que os labs fechados apostavam ser inatingível para builders. Os labs VLA proprietários estão prestes a descobrir como os moats deles aguentam contra uma fundação aberta reconstruída explicitamente para competir com eles.

Movimento prático: se você está treinando policies de robô em hardware de dois braços, MolmoAct 2-Bimanual YAM vale um download quando aterrissar. Pretreino na base de 3M exemplos de Molmo 2-ER significa que o lado perception está sólido antes de você tocar nos seus dados task-específicos. Se está fazendo single-arm, a arquitetura perception-token transfere, mas você vai replicar menos do ganho bimanual. A fronteira de eval para vigiar: a Ai2 não publicou comparações numéricas contra π0.5, Helix ou Groot N1 — essas comparações vão emergir de benchmarks independentes no próximo mês, e é aí que a leitura real de frontier se assenta. O 37x speedup é a manchete; a pergunta real é o que acontece com esse número quando você põe MolmoAct 2 cara a cara com os VLAs fechados na mesma task suite. Por enquanto, builders têm uma fundação aberta que não existia há três dias.