A NVIDIA lançou o SANA-WM, um world model open-source de 2,6 bilhões de parâmetros que recebe uma imagem 720p mais uma trajetória de câmera 6-DoF como entrada e produz um vídeo 720p de 60 segundos. O lançamento é concreto em todas as partes que geralmente não são divulgadas: 64 GPUs H100 em aproximadamente 18,5 dias de treinamento, 212.975 clips de vídeo de sete datasets (SpatialVID-HQ, DL3DV real e sintético, OmniWorld, Sekai Game e Walking-HQ, MiraData) com anotações de câmera 6-DoF em escala métrica, licença Apache 2.0 para o código em github.com/NVlabs/Sana, preprint arXiv 2605.15178, e uma variante de inferência destilada que produz um clip completo de 60 segundos em 34 GPU-segundos em um único RTX 5090 com quantização NVFP4. Esse último número é a manchete: geração de vídeo 720p de um minuto em hardware de consumo em menos do tempo real.
A arquitetura é onde a redução de custo vive. SANA-WM é um Diffusion Transformer operando em frames latentes do encoder LTX2-VAE; o backbone são 20 camadas transformer divididas como 15 blocos Gated DeltaNet (GDN) frame-wise intercalados com 5 blocos de atenção softmax padrão. Sessenta segundos a 720p comprimem para 961 frames latentes, e a atenção softmax padrão escala O(n²) em memória através dessa extensão de sequência — que é exatamente o que tira cada world model open-source anterior da implantação single-GPU. GDN substitui a maioria desses blocos com um estado recorrente de tamanho constante de dimensão D×D, que escala O(1) por frame independente do comprimento. Essa troca é a decisão de engenharia que torna 720p em escala de minuto possível em uma placa de 32GB. Duas ramificações de condicionamento de câmera lidam com o controle 6-DoF: um passe coarse UCPE que injeta a base de câmera ray-local da pose camera-to-world e intrínsecos nas cabeças de atenção, e um passe fine Plücker que aborda o desalinhamento de compressão 8-frames-por-latente computando raymaps Plücker pixel-wise (pares direção-e-momento 6D) e empacotando-os em tensores de 48 canais injetados após self-attention.
Benchmarks relatados: 4,50° de erro de rotação no split simples e 8,34° no split hard para precisão de câmera; pontuações VBench Overall de 80,62 e 81,89 nos dois splits. A comparação de throughput que a NVIDIA destaca é 22 vídeos por hora em 8 H100s para o pipeline completo incluindo o refiner — aproximadamente 36× a taxa publicada da stack LingBot-World 14B+14B, que aterrissa em torno de 0,6 vídeos por hora em hardware equivalente. Três variantes de inferência são enviadas: bidirecional a 49,2 GB para uso batch offline, chunk-causal autorregressiva a 51,1 GB para geração streaming, e a variante destilada-mais-NVFP4-quantizada que cabe no path single-GPU RTX 5090. O enquadramento de licença mista importa: o código é Apache 2.0 mas os pesos e datasets estão sob licenças separadas documentadas na Tabela 11 do paper — leia-as antes de enviar um produto comercial em cima do SANA-WM.
Para builders considerando geração de vídeo em sua stack: este é o primeiro world model open-source crível onde a economia de inferência é razoável em hardware de consumo e a metodologia é totalmente divulgada. A figura 34-GPU-segundos-por-vídeo em uma placa de consumo de $1.999 muda a curva de custo para qualquer produto que queira gerar vídeo controlado por câmera em escala — simulação robótica, prototipagem de jogos, scouting virtual, ferramentas de animação. A parte difícil que resta é o licenciamento de dataset e pesos, não o compute. Vale a pena rodar em suas próprias tarefas de avaliação; a matemática por GPU-hora sugere que este é o primeiro lançamento open onde você realmente pode. Observe a reprodução de terceiros das cifras VBench e especialmente as figuras de precisão de câmera, que são as métricas que importam para qualquer aplicação downstream que depende de rastreamento fiel de trajetórias em vez de apenas vídeo plausível.
