NVIDIA a publié SANA-WM, un world model open-source de 2,6 milliards de paramètres qui prend une image 720p plus une trajectoire caméra 6-DoF en entrée et produit une vidéo 720p de 60 secondes. La release est concrète sur toutes les parties qui sont d'habitude non-divulguées : 64 GPU H100 sur environ 18,5 jours d'entraînement, 212 975 clips vidéo de sept datasets (SpatialVID-HQ, DL3DV réel et synthétique, OmniWorld, Sekai Game et Walking-HQ, MiraData) avec des annotations caméra 6-DoF à échelle métrique, licence Apache 2.0 pour le code à github.com/NVlabs/Sana, preprint arXiv 2605.15178, et une variante d'inférence distillée qui produit un clip complet de 60 secondes en 34 GPU-secondes sur un seul RTX 5090 avec quantification NVFP4. Ce dernier chiffre c'est la manchette : génération de vidéo 720p d'une minute sur du hardware grand public en moins du temps réel.
L'architecture c'est là où la réduction de coût vit. SANA-WM c'est un Diffusion Transformer opérant sur des frames latents de l'encodeur LTX2-VAE ; le backbone c'est 20 couches transformer divisées comme 15 blocs Gated DeltaNet (GDN) frame-wise entrelacés avec 5 blocs d'attention softmax standard. Soixante secondes à 720p compressent à 961 frames latents, et l'attention softmax standard scale O(n²) en mémoire à travers cette longueur de séquence — ce qui est exactement ce qui sort chaque world model open-source précédent du déploiement single-GPU. GDN remplace la plupart de ces blocs avec un état récurrent de taille constante de dimension D×D, qui scale O(1) par frame indépendamment de la longueur. Ce swap c'est la décision d'engineering qui rend la 720p minute-scale possible sur une carte 32GB. Deux branches de conditionnement caméra gèrent le contrôle 6-DoF : un pass coarse UCPE qui injecte la base caméra ray-local depuis la pose camera-to-world et les intrinsics dans les têtes d'attention, et un pass fine Plücker qui adresse le mismatch de compression 8-frames-par-latent en calculant des raymaps Plücker pixel-wise (paires direction-et-moment 6D) et les packant en tenseurs 48-canaux injectés après self-attention.
Benchmarks rapportés : 4,50° d'erreur de rotation sur le split simple et 8,34° sur le split hard pour la précision caméra ; scores VBench Overall de 80,62 et 81,89 sur les deux splits. La comparaison de throughput que NVIDIA highlight c'est 22 vidéos par heure sur 8 H100 pour le pipeline complet incluant le refiner — environ 36× le taux publié de la stack LingBot-World 14B+14B, qui atterrit autour de 0,6 vidéos par heure sur du hardware équivalent. Trois variantes d'inférence ship : bidirectionnelle à 49,2 GB pour l'usage batch offline, chunk-causal autoregressive à 51,1 GB pour la génération streaming, et la variante distilled-plus-NVFP4-quantized qui fit le path single-GPU RTX 5090. Le cadrage de licence mixte compte : le code est Apache 2.0 mais les poids et datasets sont sous licences séparées documentées dans la Table 11 du papier — lis-les avant de shipper un produit commercial sur SANA-WM.
Pour les builders qui considèrent la génération vidéo dans leur stack : c'est le premier world model open-source crédible où l'économie d'inférence est raisonnable sur du hardware grand public et la méthodologie est entièrement divulguée. Le chiffre 34-GPU-secondes-par-vidéo sur une carte grand public à 1 999 $ change la courbe de coût pour n'importe quel produit qui veut générer de la vidéo camera-controlled à l'échelle — simulation robotique, prototypage de jeu, scouting virtuel, outillage d'animation. La partie dure qui reste c'est le licensing de dataset et de poids, pas le compute. Vaut la peine de rouler sur tes propres tâches d'évaluation ; les maths de coût par GPU-heure suggèrent que c'est la première release open où tu peux réellement. Watch pour la reproduction tierce des chiffres VBench et surtout des figures de précision caméra, qui sont les métriques qui comptent pour toute application downstream qui dépend du tracking de trajectoire fidèle plutôt que juste de la vidéo plausible.
