वैन-एआई एक स्वतंत्र स्टार्टअप नहीं है — यह अलीबाबा का वीडियो जेनरेशन में विशेषज्ञता वाला प्रयास है, जो हंग्जो में टॉन्गई (पूर्व में डैमो एकेडमी) अनुसंधान के तहत काम करता है। इस पहल को 2024 में शुरू किया गया था, जब अलीबाबा ने अपनाया कि ओपन-वेट वीडियो मॉडल क्वेन द्वारा बड़ी भाषा मॉडल के लिए किया गया काम कर सकते हैं: अलीबाबा को विकासकर्ताओं के लिए एक गो-टू प्रदाता के रूप में स्थापित करें जो अत्याधुनिक क्षमताओं की आवश्यकता रखते हैं लेकिन वेंडर लॉक-इन के बिना। वैन मॉडल्स को हुगिंग फेस और मॉडलस्कोप पर जारी किया गया था, जिसमें अनुमति देने वाले लाइसेंस थे, जिससे वे तुरंत उपलब्ध उच्च गुणवत्ता वाले वीडियो जेनरेशन मॉडल में से कुछ बन गए।
अलीबाबा द्वारा वैन को ओपन-वेट जारी करने का निर्णय एक रणनीति था, न कि दान। शक्तिशाली वीडियो मॉडलों को मुफ्त उपलब्ध कराकर, उन्होंने अलीबाबा के टेक्नोलॉजी स्टैक पर बने विकासकर्ताओं, अनुसंधानकर्ताओं और व्यवसायों के एक एकोसिस्टम बनाया। यह अलीबाबा क्लाउड के ट्रैफिक को बढ़ाता है, विकासकर्ता समुदाय में मानसिक स्थान बढ़ाता है, और एशिया और इसके बाहर वीडियो एआई कार्यों के लिए अलीबाबा को डिफ़ॉल्ट इन्फ्रास्ट्रक्चर प्रदाता के रूप में स्थापित करता है। वैन मॉडल्स कई आकारों में आते हैं — लाइटवेट वर्जन जो ग्राहक ग्राफिक्स प्रोसेसर पर चल सकते हैं और बड़े वैरिएंट जो शीर्ष बंद उत्सर्जन ऑफरिंग्स के साथ प्रतिस्पर्धा कर सकते हैं — जिससे विकासकर्ताओं को अपने कम्प्यूटेशन बजट और गुणवत्ता आवश्यकताओं के आधार पर चुनने की आजादी मिलती है।
वैन मॉडल परिवार एक डिफ्यूज़न ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करता है, जिसमें टेक्स्ट एंकोडर अलीबाबा के क्वेन भाषा मॉडल से लिया गया है, जो टेक्स्ट समझ और दृश्य जेनरेशन के बीच एक कड़ी एकीकरण बनाता है। परिणाम विशेष रूप से प्रॉम्प्ट अनुसरण और सीन बनाने में मजबूत हैं, जहां कई वीडियो मॉडल्स कठिनाई में आते हैं। वैन टेक्स्ट-टू-वीडियो, इमेज-टू-वीडियो और वीडियो-टू-वीडियो जेनरेशन का समर्थन करता है, और ओपन-वेट प्रकृति के कारण समुदाय ने तेजी से LoRA फाइन-ट्यून, कम्फ़ीयू में कस्टम वर्कफ़्लो और एनिमे से आर्किटेक्चरल विजुअलाइज़ेशन तक के विशेष अनुकूलन बनाए हैं। यह एकोसिस्टम प्रभाव आधार मॉडल के आसपास अधिक मूल्यवान हो सकता है।
वैन दो प्रतिस्पर्धी लड़ाइयों के बीच स्थित है। ओपन-वेट वीडियो स्पेस में, यह स्थेयटी एआई के वीडियो मॉडल्स और विभिन्न समुदाय प्रयासों के साथ प्रतिस्पर्धा करता है। व्यापक चीनी एआई वीडियो बाजार में, यह क्लिंग, विदू और अन्य के साथ प्रतिस्पर्धा करता है — हालांकि अलीबाबा के दृष्टिकोण मूल रूप से अलग है क्योंकि मॉडल बाजारीकरण है, न कि उत्पाद। वास्तविक उत्पाद अलीबाबा क्लाउड कम्प्यूटेशन है। यह स्थिति वैन को मॉडल जारी करने में अधिक उदार रहने की अनुमति देती है जिसे सीधे मनीटाइज करने वाले स्वतंत्र स्टार्टअप की तुलना में, जो ओपन-सोर्स रेस में छोटे खिलाड़ियों के लिए कठिन बना देता है।