NVIDIA SANA-WM: world model 2,6B open-source, 60s 720p em RTX 5090 em 34s, Zubnet AI Notícias

A NVIDIA lançou o SANA-WM, um world model open-source de 2,6 bilhões de parâmetros que recebe uma imagem 720p mais uma trajetória de câmera 6-DoF como entrada e produz um vídeo 720p de 60 segundos. O lançamento é concreto em todas as partes que geralmente não são divulgadas: 64 GPUs H100 em aproximadamente 18,5 dias de treinamento, 212.975 clips de vídeo de sete datasets (SpatialVID-HQ, DL3DV real e sintético, OmniWorld, Sekai Game e Walking-HQ, MiraData) com anotações de câmera 6-DoF em escala métrica, licença Apache 2.0 para o código em github.com/NVlabs/Sana, preprint arXiv 2605.15178, e uma variante de inferência destilada que produz um clip completo de 60 segundos em 34 GPU-segundos em um único RTX 5090 com quantização NVFP4. Esse último número é a manchete: geração de vídeo 720p de um minuto em hardware de consumo em menos do tempo real.

A arquitetura é onde a redução de custo vive. SANA-WM é um Diffusion Transformer operando em frames latentes do encoder LTX2-VAE; o backbone são 20 camadas transformer divididas como 15 blocos Gated DeltaNet (GDN) frame-wise intercalados com 5 blocos de atenção softmax padrão. Sessenta segundos a 720p comprimem para 961 frames latentes, e a atenção softmax padrão escala O(n²) em memória através dessa extensão de sequência — que é exatamente o que tira cada world model open-source anterior da implantação single-GPU. GDN substitui a maioria desses blocos com um estado recorrente de tamanho constante de dimensão D×D, que escala O(1) por frame independente do comprimento. Essa troca é a decisão de engenharia que torna 720p em escala de minuto possível em uma placa de 32GB. Duas ramificações de condicionamento de câmera lidam com o controle 6-DoF: um passe coarse UCPE que injeta a base de câmera ray-local da pose camera-to-world e intrínsecos nas cabeças de atenção, e um passe fine Plücker que aborda o desalinhamento de compressão 8-frames-por-latente computando raymaps Plücker pixel-wise (pares direção-e-momento 6D) e empacotando-os em tensores de 48 canais injetados após self-attention.

Benchmarks relatados: 4,50° de erro de rotação no split simples e 8,34° no split hard para precisão de câmera; pontuações VBench Overall de 80,62 e 81,89 nos dois splits. A comparação de throughput que a NVIDIA destaca é 22 vídeos por hora em 8 H100s para o pipeline completo incluindo o refiner — aproximadamente 36× a taxa publicada da stack LingBot-World 14B+14B, que aterrissa em torno de 0,6 vídeos por hora em hardware equivalente. Três variantes de inferência são enviadas: bidirecional a 49,2 GB para uso batch offline, chunk-causal autorregressiva a 51,1 GB para geração streaming, e a variante destilada-mais-NVFP4-quantizada que cabe no path single-GPU RTX 5090. O enquadramento de licença mista importa: o código é Apache 2.0 mas os pesos e datasets estão sob licenças separadas documentadas na Tabela 11 do paper — leia-as antes de enviar um produto comercial em cima do SANA-WM.

Para builders considerando geração de vídeo em sua stack: este é o primeiro world model open-source crível onde a economia de inferência é razoável em hardware de consumo e a metodologia é totalmente divulgada. A figura 34-GPU-segundos-por-vídeo em uma placa de consumo de $1.999 muda a curva de custo para qualquer produto que queira gerar vídeo controlado por câmera em escala — simulação robótica, prototipagem de jogos, scouting virtual, ferramentas de animação. A parte difícil que resta é o licenciamento de dataset e pesos, não o compute. Vale a pena rodar em suas próprias tarefas de avaliação; a matemática por GPU-hora sugere que este é o primeiro lançamento open onde você realmente pode. Observe a reprodução de terceiros das cifras VBench e especialmente as figuras de precisão de câmera, que são as métricas que importam para qualquer aplicação downstream que depende de rastreamento fiel de trajetórias em vez de apenas vídeo plausível.

NVIDIA SANA-WM: world model 2,6B open-source, 60s 720p em RTX 5090 em 34s

Mais notícias