NVIDIA lanzó SANA-WM, un world model open-source de 2.6 mil millones de parámetros que toma una imagen 720p más una trayectoria de cámara 6-DoF como entrada y produce un video 720p de 60 segundos. El lanzamiento es concreto en todas las partes que usualmente no se divulgan: 64 GPUs H100 en aproximadamente 18.5 días de entrenamiento, 212,975 clips de video de siete datasets (SpatialVID-HQ, DL3DV real y sintético, OmniWorld, Sekai Game y Walking-HQ, MiraData) con anotaciones de cámara 6-DoF a escala métrica, licencia Apache 2.0 para el código en github.com/NVlabs/Sana, preprint arXiv 2605.15178, y una variante de inferencia destilada que produce un clip completo de 60 segundos en 34 GPU-segundos en un solo RTX 5090 con cuantización NVFP4. Ese último número es el titular: generación de video 720p de un minuto en hardware de consumo en menos del tiempo real.

La arquitectura es donde vive la reducción de costo. SANA-WM es un Diffusion Transformer operando en frames latentes del encoder LTX2-VAE; el backbone son 20 capas transformer divididas como 15 bloques Gated DeltaNet (GDN) frame-wise intercalados con 5 bloques de atención softmax estándar. Sesenta segundos a 720p se comprimen a 961 frames latentes, y la atención softmax estándar escala O(n²) en memoria a través de esa longitud de secuencia — que es exactamente lo que saca a cada world model open-source previo del despliegue single-GPU. GDN reemplaza la mayoría de esos bloques con un estado recurrente de tamaño constante de dimensión D×D, que escala O(1) por frame independientemente de la longitud. Ese intercambio es la decisión de ingeniería que hace posible 720p a escala de minuto en una tarjeta de 32GB. Dos ramas de condicionamiento de cámara manejan el control 6-DoF: un pase coarse UCPE que inyecta la base de cámara ray-local desde la pose camera-to-world y los intrínsecos en las cabezas de atención, y un pase fine Plücker que aborda el desajuste de compresión 8-frames-por-latente computando raymaps Plücker pixel-wise (pares dirección-y-momento 6D) y empacándolos en tensores de 48 canales inyectados después de self-attention.

Benchmarks reportados: 4.50° de error de rotación en el split simple y 8.34° en el split hard para precisión de cámara; puntajes VBench Overall de 80.62 y 81.89 en los dos splits. La comparación de throughput que NVIDIA destaca es 22 videos por hora en 8 H100s para el pipeline completo incluyendo el refiner — aproximadamente 36× la tasa publicada de la stack LingBot-World 14B+14B, que aterriza alrededor de 0.6 videos por hora en hardware equivalente. Se envían tres variantes de inferencia: bidireccional a 49.2 GB para uso batch offline, chunk-causal autorregresiva a 51.1 GB para generación streaming, y la variante destilada-más-NVFP4-cuantizada que cabe en el path single-GPU RTX 5090. El encuadre de licencia mixta importa: el código es Apache 2.0 pero los pesos y datasets están bajo licencias separadas documentadas en la Tabla 11 del paper — léelas antes de enviar un producto comercial encima de SANA-WM.

Para builders considerando generación de video en su stack: este es el primer world model open-source creíble donde la economía de inferencia es razonable en hardware de consumo y la metodología está completamente divulgada. La cifra 34-GPU-segundos-por-video en una tarjeta de consumo de $1,999 cambia la curva de costo para cualquier producto que quiera generar video controlado por cámara a escala — simulación robótica, prototipado de juegos, scouting virtual, herramientas de animación. La parte difícil que queda es el licenciamiento de dataset y pesos, no el compute. Vale la pena correr en tus propias tareas de evaluación; las matemáticas por GPU-hora sugieren que este es el primer lanzamiento open donde realmente puedes. Observa la reproducción de terceros de las cifras VBench y especialmente las figuras de precisión de cámara, que son las métricas que importan para cualquier aplicación downstream que dependa del tracking fiel de trayectorias en lugar de solo video plausible.