Valenzuela da Runway no podcast Equity: a geração de vídeo foi o prólogo — GWM-1 modelos de mundo, três variantes, US$ 5,3B e a aposta de que simulação é maior que Hollywood

O cofundador e CEO da Runway, Cristóbal Valenzuela, apareceu no podcast Equity da TechCrunch na quarta-feira para fazer uma afirmação estratégica que a Runway vem telegrafando desde o lançamento do GWM-1 em dezembro de 2025: geração de vídeo foi um meio para um fim, e o fim são modelos de mundo gerais. Os números por trás da afirmação: a Runway levantou aproximadamente US$ 860 milhões no total, incluindo uma Série E de US$ 315M em fevereiro a uma valuation de US$ 5,3 bilhões. O produto por baixo é o GWM-1 (General World Model 1), um modelo autorregressivo construído sobre o Gen-4.5 que gera quadro a quadro, roda em tempo real, e pode ser controlado interativamente via pose de câmera, comandos de robô ou áudio. Saem três variantes especializadas: GWM Worlds (ambientes exploráveis), GWM Avatars (personagens conversacionais) e GWM Robotics (treinamento de manipulação). A divisão de clientes — estúdios de cinema, agências de publicidade, gaming, arquitetura, além de empresas de robótica e veículos autônomos — conta a história: Hollywood é metade da receita, simulação-como-dados-de-treinamento é a outra metade.

O que torna o GWM-1 arquiteturalmente distinto da geração de vídeo direta é a combinação autorregressivo-mais-controlável-por-ação. A maioria do vídeo generativo (Veo 3, Sora, até os Gen-3/4 da própria Runway) é roll-out: você dá um prompt, o modelo produz um clipe fixo, não tem como intervir no meio da geração. O GWM-1 é mais próximo de um motor de simulação — gera um quadro, aceita uma entrada de ação, gera o quadro seguinte condicionado nessa ação, e assim por diante, em tempo real. Esse é o mesmo padrão de loop que um motor de jogo ou um simulador físico, só que com um modelo aprendido em vez de regras codificadas à mão. O vocabulário de ações importa: Worlds lida com ações de pose de câmera (andar para frente, virar à esquerda), Robotics lida com comandos de efetor final (mover garra, fechar mão), Avatars lida com entradas de áudio (a voz do usuário dirigindo a resposta de um personagem). Um modelo base, três espaços de ações, três superfícies de produto.

O posicionamento estratégico contra o ecossistema mais amplo de modelos de mundo é a pergunta mais interessante. O Genie 3 da DeepMind envia ambientes classe videogame interativos. A World Labs da Fei-Fei Li levantou em uma tese similar de simulação-da-realidade no ângulo IA-espacial. A série V-JEPA da Meta (a aposta do LeCun) mira uma interpretação mais cognitiva — modelos que entendem física em vez de renderizá-la. A escolha distintiva da Runway é sentar no lado motor-de-renderização desse espectro, com geração autorregressiva em tempo real como primitiva estrutural — mais próxima de "Hollywood jogável" do que de "pensar sobre física". O enquadramento do Valenzuela no podcast — que a verdadeira restrição do cinema nunca foi a tecnologia — é a versão upstream da aposta: quando a geração se torna grátis, o gargalo se move da produção para a autoria, e a mesma primitiva (um mundo simulado que responde a ações) serve tanto cineastas quanto roboticistas. Esse é um pitch forte mas as provas ainda são iniciais; o lançamento de dezembro do GWM-1 foi seguido por notícias de parceria com a plataforma NVIDIA Rubin mas nenhum benchmark independente detalhado de custo de inferência, fidelidade de controlabilidade, ou taxas de transferência de política de robô.

Para builders, três leituras. Primeiro, se você está construindo algo que precisa de dados de ambiente sintéticos — treinar uma política de robô, gerar dados de treinamento visuais para uma stack de veículo autônomo, prototipar um nível de jogo — modelos de mundo são agora uma terceira opção viável ao lado de simuladores construídos à mão (Isaac Sim, Unity ML-Agents) e pipelines de renderização puros. O trade-off: modelos de mundo são mais lentos por quadro que motores de jogo dedicados mas vastamente mais flexíveis na composição de cena. Segundo, a dimensão controlabilidade-por-ação é a lente arquitetural correta — avalie modelos de mundo em tamanho de espaço de ações, latência ação-para-quadro, e consistência sobre sequências de ações longas (o mundo deriva? a garra do robô se move onde você disse?). Essas métricas estão começando a aparecer em benchmarks de pesquisa mas vendors não lideram com elas. Terceiro, observe a convergência entre modelos de vídeo e modelos de mundo — se Runway, Google, Meta e World Labs todos enviarem modelos em tempo real controláveis por ação nos próximos 12 meses, a categoria "geração de vídeo" se torna um subconjunto estrito de "simulação de mundo". Isso colapsa o cenário competitivo e reformula quem são realmente os concorrentes da Runway: não só Veo e Sora, mas Isaac Sim, Genie e Unreal Engine.

Valenzuela da Runway no podcast Equity: a geração de vídeo foi o prólogo — GWM-1 modelos de mundo, três variantes, US$ 5,3B e a aposta de que simulação é maior que Hollywood

Mais notícias