NVIDIA SANA-WM: world model 2.6B open-source, 60s 720p en RTX 5090 en 34s, Zubnet AI Noticias

NVIDIA lanzó SANA-WM, un world model open-source de 2.6 mil millones de parámetros que toma una imagen 720p más una trayectoria de cámara 6-DoF como entrada y produce un video 720p de 60 segundos. El lanzamiento es concreto en todas las partes que usualmente no se divulgan: 64 GPUs H100 en aproximadamente 18.5 días de entrenamiento, 212,975 clips de video de siete datasets (SpatialVID-HQ, DL3DV real y sintético, OmniWorld, Sekai Game y Walking-HQ, MiraData) con anotaciones de cámara 6-DoF a escala métrica, licencia Apache 2.0 para el código en github.com/NVlabs/Sana, preprint arXiv 2605.15178, y una variante de inferencia destilada que produce un clip completo de 60 segundos en 34 GPU-segundos en un solo RTX 5090 con cuantización NVFP4. Ese último número es el titular: generación de video 720p de un minuto en hardware de consumo en menos del tiempo real.

La arquitectura es donde vive la reducción de costo. SANA-WM es un Diffusion Transformer operando en frames latentes del encoder LTX2-VAE; el backbone son 20 capas transformer divididas como 15 bloques Gated DeltaNet (GDN) frame-wise intercalados con 5 bloques de atención softmax estándar. Sesenta segundos a 720p se comprimen a 961 frames latentes, y la atención softmax estándar escala O(n²) en memoria a través de esa longitud de secuencia — que es exactamente lo que saca a cada world model open-source previo del despliegue single-GPU. GDN reemplaza la mayoría de esos bloques con un estado recurrente de tamaño constante de dimensión D×D, que escala O(1) por frame independientemente de la longitud. Ese intercambio es la decisión de ingeniería que hace posible 720p a escala de minuto en una tarjeta de 32GB. Dos ramas de condicionamiento de cámara manejan el control 6-DoF: un pase coarse UCPE que inyecta la base de cámara ray-local desde la pose camera-to-world y los intrínsecos en las cabezas de atención, y un pase fine Plücker que aborda el desajuste de compresión 8-frames-por-latente computando raymaps Plücker pixel-wise (pares dirección-y-momento 6D) y empacándolos en tensores de 48 canales inyectados después de self-attention.

Benchmarks reportados: 4.50° de error de rotación en el split simple y 8.34° en el split hard para precisión de cámara; puntajes VBench Overall de 80.62 y 81.89 en los dos splits. La comparación de throughput que NVIDIA destaca es 22 videos por hora en 8 H100s para el pipeline completo incluyendo el refiner — aproximadamente 36× la tasa publicada de la stack LingBot-World 14B+14B, que aterriza alrededor de 0.6 videos por hora en hardware equivalente. Se envían tres variantes de inferencia: bidireccional a 49.2 GB para uso batch offline, chunk-causal autorregresiva a 51.1 GB para generación streaming, y la variante destilada-más-NVFP4-cuantizada que cabe en el path single-GPU RTX 5090. El encuadre de licencia mixta importa: el código es Apache 2.0 pero los pesos y datasets están bajo licencias separadas documentadas en la Tabla 11 del paper — léelas antes de enviar un producto comercial encima de SANA-WM.

Para builders considerando generación de video en su stack: este es el primer world model open-source creíble donde la economía de inferencia es razonable en hardware de consumo y la metodología está completamente divulgada. La cifra 34-GPU-segundos-por-video en una tarjeta de consumo de $1,999 cambia la curva de costo para cualquier producto que quiera generar video controlado por cámara a escala — simulación robótica, prototipado de juegos, scouting virtual, herramientas de animación. La parte difícil que queda es el licenciamiento de dataset y pesos, no el compute. Vale la pena correr en tus propias tareas de evaluación; las matemáticas por GPU-hora sugieren que este es el primer lanzamiento open donde realmente puedes. Observa la reproducción de terceros de las cifras VBench y especialmente las figuras de precisión de cámara, que son las métricas que importan para cualquier aplicación downstream que dependa del tracking fiel de trayectorias en lugar de solo video plausible.

NVIDIA SANA-WM: world model 2.6B open-source, 60s 720p en RTX 5090 en 34s

Más noticias