ByteDance ने अपने Force सम्मेलन में अपना अगली पीढ़ी का AI वीडियो मॉडल Seedance 2.5 पेश किया है, जिसकी सार्वजनिक लॉन्चिंग जुलाई की शुरुआत में अपेक्षित है। मुख्य क्षमता यह है कि एक ही पास में 4K रिज़ॉल्यूशन पर 30 सेकंड की देशी (नेटिव) क्लिप तैयार होती है, बिना किसी जोड़ या विस्तार की तरकीब के। उस क्षेत्र के लिए जहाँ अधिकांश मॉडल अब भी एक बार में कुछ ही सेकंड बनाते हैं और टुकड़ों को आपस में जोड़ते हैं, आधे मिनट का एक सतत शॉट एक वास्तविक छलांग है।
एकल-पास दृष्टिकोण ही इसके महत्व का केंद्र है। आज का अधिकांश AI वीडियो कुछ सेकंड की छोटी क्लिप से बनाया जाता है जिन्हें बढ़ाया या जोड़ा जाता है, और यहीं पर बहाव (ड्रिफ्ट), जोड़ की रेखाएँ और निरंतरता की त्रुटियाँ आ जाती हैं। 4K पर पूरे 30 सेकंड का टेक देशी रूप से तैयार करने का अर्थ है कि मॉडल किसी दृश्य को कहीं अधिक लंबी अवधि तक एकजुट रखता है, और यही वह भाग है जो कठिन रहा है।
ध्वनि दूसरी प्रगति है। Seedance 2.5 ध्वनि और वीडियो दोनों को एक ही लेटेंट स्पेस में साथ-साथ तैयार करता है, इसलिए स्क्रीन पर होने वाली क्रिया और उसकी ध्वनि बाद में डब करने के बजाय देशी रूप से समकालिक होती हैं। यह मॉडल Seedance 2.0 की तुलना में कहीं अधिक नियंत्रण के लिए 50 तक मल्टीमॉडल संदर्भ सामग्री भी स्वीकार करता है, जो छवियों, वीडियो और ऑडियो का मिश्रण है, और ByteDance प्रॉम्प्ट के पालन में लगभग 20 प्रतिशत बेहतर होने का दावा करता है, जिसका व्यवहार में अर्थ है उपयोग योग्य परिणाम पाने के लिए कम पुनर्निर्माण।
एक वर्कफ़्लो विशेषता भी है जो संकेत देती है कि ByteDance इसे किसके लिए लक्षित कर रहा है। एक नया 3D व्हाइट-बॉक्स प्रीव्यू किसी रचनाकार को पूर्ण उच्च-गुणवत्ता रेंडर के लिए प्रतिबद्ध होने से पहले किसी शॉट का कम-विश्वसनीयता वाला 3D एनिमेशन शीघ्रता से बनाने देता है, यानी कैमरा और गति को सस्ते में मोटे तौर पर तय करने का एक तरीका और भारी कंप्यूट तभी खर्च करना जब शॉट सही हो। यह एक प्रोडक्शन-पाइपलाइन विचार है, कोई डेमो तरकीब नहीं।
ईमानदार चेतावनी यह है कि यह एक प्रीव्यू है, रिलीज़ नहीं, और यहाँ हर आँकड़ा ByteDance का अपना दावा है, इसलिए जुलाई की शुरुआत में इसके आने के बाद स्वतंत्र परीक्षण ही असली पैमाना होगा। देशी 4K और एक स्वच्छ 30 सेकंड का एकल शॉट ठीक वैसे ही मुख्य विनिर्देश हैं जो वास्तविक प्रॉम्प्ट के सामने नरम पड़ जाते हैं। परंतु दिशा ही वह चीज़ है जो मायने रखती है। अंतर्निहित समकालिक ध्वनि के साथ एक ही शॉट की लंबी क्लिप वही हैं जो AI वीडियो को आकर्षक डेमो से उस फुटेज की ओर ले जाती हैं जिसे कोई वास्तव में किसी तैयार कृति में काट कर लगा सके, और यदि Seedance 2.5 अपेक्षा पर खरा उतरता है, तो यह उसका पीछा करने वाले हर वीडियो मॉडल के लिए स्तर ऊँचा कर देता है।
