NVIDIA ने SANA-WM जारी किया, एक 2.6-बिलियन-पैरामीटर ओपन-सोर्स वर्ल्ड मॉडल जो एक 720p छवि प्लस एक 6-DoF कैमरा ट्रैजेक्टरी को इनपुट के रूप में लेता है और एक 60-सेकंड 720p वीडियो उत्पन्न करता है। रिलीज़ उन सभी हिस्सों पर ठोस है जो आमतौर पर अप्रकाशित रहते हैं: 64 H100 GPU पर लगभग 18.5 दिनों के प्रशिक्षण पर, सात डेटासेट (SpatialVID-HQ, DL3DV वास्तविक और सिंथेटिक, OmniWorld, Sekai Game और Walking-HQ, MiraData) से 212,975 वीडियो क्लिप मेट्रिक-स्केल 6-DoF कैमरा एनोटेशन के साथ, github.com/NVlabs/Sana पर कोड के लिए Apache 2.0 लाइसेंस, arXiv प्रीप्रिंट 2605.15178, और एक डिस्टिल्ड इन्फेरेंस वैरिएंट जो एकल RTX 5090 पर NVFP4 क्वांटाइज़ेशन के साथ 34 GPU-सेकंड में एक पूर्ण 60-सेकंड क्लिप उत्पन्न करता है। वह अंतिम संख्या मुख्य शीर्षक है: कंज़्यूमर हार्डवेयर पर रियल-टाइम से कम में मिनट-लंबा 720p वीडियो जनरेशन।
आर्किटेक्चर वहाँ है जहाँ लागत में कमी रहती है। SANA-WM एक Diffusion Transformer है जो LTX2-VAE एनकोडर से लेटेंट फ्रेम्स पर ऑपरेट करता है; बैकबोन 20 ट्रांसफॉर्मर परतें हैं जो 15 frame-wise Gated DeltaNet (GDN) ब्लॉक्स के रूप में विभाजित हैं जो 5 मानक softmax ध्यान ब्लॉक्स के साथ अंतर्निहित हैं। 720p पर 60 सेकंड 961 लेटेंट फ्रेम्स में संकुचित होते हैं, और मानक softmax ध्यान उस अनुक्रम लंबाई पर मेमोरी में O(n²) स्केल करता है — जो ठीक वही है जो हर पिछले ओपन-सोर्स वर्ल्ड मॉडल को सिंगल-GPU डिप्लॉयमेंट से बाहर निकालता है। GDN उन ब्लॉक्स में से अधिकांश को D×D आयाम के एक स्थिर-आकार के पुनरावर्ती राज्य से बदलता है, जो लंबाई की परवाह किए बिना प्रति फ्रेम O(1) स्केल करता है। वह स्वैप वह इंजीनियरिंग निर्णय है जो 32GB कार्ड पर मिनट-स्केल 720p को संभव बनाता है। दो कैमरा-सशर्तीकरण शाखाएँ 6-DoF नियंत्रण को संभालती हैं: एक मोटा UCPE पास जो camera-to-world मुद्रा और इंट्रिंसिक्स से ray-local कैमरा बेस को ध्यान शीर्षों में इंजेक्ट करता है, और एक महीन Plücker पास जो पिक्सेल-वार Plücker रेमैप्स (6D दिशा-और-क्षण जोड़े) की गणना करके 8-फ्रेम-प्रति-लेटेंट संपीड़न बेमेल को संबोधित करता है और उन्हें self-attention के बाद इंजेक्ट किए गए 48-चैनल टेंसर्स में पैक करता है।
रिपोर्ट किए गए बेंचमार्क: कैमरा सटीकता के लिए सरल स्प्लिट पर 4.50° रोटेशन त्रुटि और हार्ड स्प्लिट पर 8.34°; दो स्प्लिट्स पर VBench Overall स्कोर 80.62 और 81.89। NVIDIA जो थ्रूपुट तुलना हाइलाइट करता है वह 8 H100s पर रिफ़ाइनर सहित पूर्ण पाइपलाइन के लिए प्रति घंटे 22 वीडियो है — लगभग प्रकाशित LingBot-World 14B+14B स्टैक की दर का 36×, जो समकक्ष हार्डवेयर पर प्रति घंटे लगभग 0.6 वीडियो पर उतरता है। तीन इन्फेरेंस वैरिएंट शिप होते हैं: ऑफलाइन बैच उपयोग के लिए 49.2 GB पर द्विदिश, स्ट्रीमिंग जनरेशन के लिए 51.1 GB पर चंक-कॉज़ल ऑटोरेग्रेसिव, और डिस्टिल्ड-प्लस-NVFP4-क्वांटाइज़्ड वैरिएंट जो RTX 5090 सिंगल-GPU पथ में फ़िट होता है। मिश्रित लाइसेंस फ़्रेमिंग मायने रखती है: कोड Apache 2.0 है लेकिन वज़न और डेटासेट पेपर की टेबल 11 में दर्ज अलग लाइसेंस के तहत हैं — SANA-WM के शीर्ष पर वाणिज्यिक उत्पाद शिप करने से पहले उन्हें पढ़ें।
अपने स्टैक में वीडियो जनरेशन पर विचार करने वाले बिल्डर्स के लिए: यह पहला विश्वसनीय ओपन-सोर्स वर्ल्ड मॉडल है जहाँ इन्फेरेंस अर्थशास्त्र कंज़्यूमर हार्डवेयर पर उचित है और कार्यप्रणाली पूरी तरह से प्रकट है। $1,999 कंज़्यूमर कार्ड पर प्रति वीडियो 34-GPU-सेकंड आँकड़ा किसी भी उत्पाद के लागत वक्र को बदलता है जो स्केल पर कैमरा-नियंत्रित वीडियो उत्पन्न करना चाहता है — रोबोटिक्स सिमुलेशन, गेम प्रोटोटाइपिंग, वर्चुअल स्काउटिंग, एनिमेशन टूलिंग। शेष कठिन हिस्सा डेटासेट और वज़न लाइसेंसिंग है, कंप्यूट नहीं। अपने स्वयं के मूल्यांकन कार्यों पर चलाने योग्य; प्रति-GPU-घंटे गणित सुझाव देता है कि यह पहला ओपन रिलीज़ है जहाँ आप वास्तव में कर सकते हैं। VBench संख्याओं और विशेष रूप से कैमरा-सटीकता आँकड़ों के तीसरे-पक्ष पुनरुत्पादन के लिए देखें, जो किसी भी डाउनस्ट्रीम अनुप्रयोग के लिए मायने रखने वाले मेट्रिक्स हैं जो केवल प्रशंसनीय दिखने वाले वीडियो के बजाय वफ़ादार ट्रैजेक्टरी ट्रैकिंग पर निर्भर करता है।
