विदू शेंगशू टेक्नोलॉजी से निकला, जो बीजिंग में स्थित एक स्टार्टअप है जिसकी स्थापना 2024 में तिंगह्वा विश्वविद्यालय के एआई लैब्स में गहरी जड़ वाले अनुसंधानकर्ता टीम द्वारा की गई थी। कंपनी के सह-संस्थापक जू जुन ने तिंगह्वा में जेनेरेटिव मॉडल्स पर कई सालों तक काम करने के बाद व्यावसायिकरण के लिए अपनी उड़ान बरकरार रखी। शुरुआत से ही शेंगशू ने विदू को एक सामान्य उद्देश्य वाले एआई प्रयोग के बजाय एक फोकस्ड वीडियो जेनेरेशन इंजन के रूप में स्थापित किया था — एक बेट जो जेनेरेटिव एआई के अगले सीमा के रूप में गतिशील छवियां, निश्चित छवियों के बजाय थी। उनका पहला सार्वजनिक डेमो 2024 के शुरुआती दिनों में चीनी टेक प्रेस में ध्यान खींचा, जो ओपनएआई के सोरा के घोषणा के केवल कुछ हफ्तों बाद आया था और दिखाता था कि चीनी लैब्स बहुत पीछे नहीं थे।
विदू को दिन से ही अलग करने वाली बात उसकी भौतिक संगतता पर जोर देना था। जबकि अधिकांश प्रारंभिक वीडियो जेनेरेशन मॉडल्स आदमी के सपने जैसे, तरल परिणाम उत्पन्न करते थे जो एक दूसरे से बातचीत करते समय टूट जाते थे, विदू के आउटपुट में भौतिकी के बेहतर अंदाजे थे — वस्तुओं के वजन थे, छाया सही तरीके से चलते थे, और कैमरा गति अनूठा लगता था बजाय यादृच्छिक। मूल आर्किटेक्चर में एक डिफ्यूजन ट्रांसफॉर्मर प्रयोग किया गया है, जिसके ट्रेनिंग बड़े पैमाने पर वीडियो डेटा सेट्स पर किया गया था, जिसमें शेंगशू ने चीनी कंटेंट प्लेटफॉर्म्स के साथ साझेदारी के माध्यम से कुछ हिस्सा एकत्र किया। उनके मॉडल्स एक संगत व्यक्ति के साथ बहु-शॉट जेनेरेशन का समर्थन करते हैं, एक विशेषता जो विदू को एक नवीनता उपकरण से एक ऐसी चीज के रूप में ले गई जिसका छोटे फॉर्मेट स्टोरी बताने वाले लेखकों द्वारा वास्तव में उपयोग किया जा सकता है।
विदू एआई वीडियो लैंडस्केप में एक रोचक स्थिति में है। चीन में, यह क्लिंग (कुएशिओउ) से प्रतिस्पर्धा करता है, वान (अलीबाबा) और कुछ अन्य अच्छी तरह से वित्तीय रूप से सुसज्जित प्रयासों के साथ। अंतरराष्ट्रीय रूप से, यह रनवे, लुमा और पिका के साथ टकराता है। शेंगशू ने अपने उपभोक्ता-मुखी उत्पाद के साथ एक एपीआई-पहल रणनीति का पालन किया है, जिससे विदू को वीडियो जेनेरेशन पर बनाए गए विकासकर्ताओं के लिए उपलब्ध कराया गया है। मूल्य अत्यधिक आक्रामक रहा है, पश्चिमी प्रतिस्पर्धियों के बजाय बेहतर या तुलनीय गुणवत्ता प्रदान करते हुए। कंपनी ने 2024 में महत्वपूर्ण वित्तीय संसाधन एकत्र किए, जिसके बारे में रिपोर्ट किया गया है कि इसका मूल्यांकन $300 मिलियन से अधिक है, जिसमें जिपू एआई और अन्य प्रमुख चीनी निवेशकों के समर्थन के साथ।
शेंगशू ने विदू को लंबे फॉर्मेट जेनेरेशन, उच्च रिज़ॉल्यूशन और बेहतर कंट्रोलेबिलिटी की ओर धकेल रखा है — जो तीन अक्ष व्यावसायिक उपयोग के लिए सबसे महत्वपूर्ण हैं। उन्होंने छवि-से-वीडियो और वीडियो-से-वीडियो क्षमताओं में भी निवेश किया है, जानते हुए कि अधिकांश वास्तविक कार्यप्रवाह एकल टेक्स्ट प्रॉम्प्ट के बजाय संदर्भ सामग्री से शुरू होते हैं। विदू के लिए व्यापक प्रश्न यह है कि क्या वह चीनी एआई कंपनियों के लिए राजनीतिक और भौगोलिक धकेल के बावजूद अंतरराष्ट्रीय बाजार में निकल सकता ह