हांगकांग स्थित कंप्यूटर विज़न अग्रदूत SenseTime, जो 2019 से अमेरिकी प्रतिबंध सूचियों में है, ने मंगलवार को SenseNova U1 को Hugging Face और GitHub पर ओपन लाइसेंस के तहत जारी किया। मॉडल की पिच एक तकनीकी दावे और एक आपूर्ति-श्रृंखला दावे को जोड़ती है। तकनीकी: U1 छवियों को पहले टेक्स्ट टोकन्स में अनुवादित किए बिना उत्पन्न और व्याख्या करता है, जिसे सह-संस्थापक और मुख्य वैज्ञानिक Dahua Lin (CUHK में सूचना इंजीनियरिंग के प्रोफ़ेसर भी) "मॉडल की पूरी तर्क प्रक्रिया अब टेक्स्ट तक सीमित नहीं है — यह छवियों के साथ भी तर्क कर सकती है" के रूप में वर्णित करते हैं। आपूर्ति-श्रृंखला: Cambricon और Biren Technology सहित 10 चीनी चिप डिज़ाइनरों ने रिलीज़ के दिन संगतता की घोषणा की। मॉडल को अमेरिकी छवि और बहु-मोडल फ़्रंटियर मॉडलों के लिए चीनी स्टैक विकल्प के रूप में स्थापित किया गया है — वास्तुकला और सिलिकॉन परत दोनों पर।
तकनीकी दावा अधिक दिलचस्प आधा है, भले ही विक्रेता बेंचमार्क अभी तक स्वतंत्र रूप से सत्यापित नहीं किए गए हैं। अधिकांश वर्तमान विज़न-भाषा मॉडल (GPT-4o, विज़न के साथ Claude, Gemini) छवियों को संभालने के लिए उन्हें अलग या निरंतर टोकन्स के अनुक्रम में एनकोड करते हैं जो उसी ट्रांसफ़ॉर्मर में फ़ीड किए जाते हैं जो टेक्स्ट संसाधित करता है — प्रभावी रूप से दृष्टि को उस भाषा में अनुवादित करना जो मॉडल पहले से समझता है। मूल छवि-तर्क वास्तुकला अनुवाद चरण को छोड़ देती है, मॉडल के तर्क ट्रेस के माध्यम से सीधे विज़ुअल प्रतिनिधित्व को संसाधित करती है। यदि SenseTime ने वास्तव में इसे उत्पादन गुणवत्ता में भेजा है, तो यह एक शोध दिशा (Anole, पूरी तरह से मूल बहु-मोडल Chameleon-वर्ग के बारे में सोचें) को एक उपयोग योग्य ओपन-सोर्स कलाकृति में आगे खींचता है। Lin इसे भविष्य की रोबोटिक्स के लिए मूलभूत मानते हैं: "छवियों को सीधे संसाधित करने में सक्षम मॉडल रोबोटों को भौतिक दुनिया को बेहतर ढंग से समझने में सक्षम बनाएंगे।" यह Figure, Physical Intelligence, और DeepMind के Gemini Robotics में सन्निहित-AI कार्य के पीछे की वही वास्तुकला शर्त है — लेकिन चीनी ओपन-सोर्स लाइसेंस के साथ।
आपूर्ति-श्रृंखला कहानी ही इसे भू-राजनीतिक रूप से भारित बनाती है। SenseTime पोस्ट-ChatGPT दौड़ में पीछे रह गई, स्पॉटलाइट नई चीनी स्टार्टअप DeepSeek और MiniMax को खो दी — दोनों ने उल्लेखनीय ओपन-सोर्स रिलीज़ के साथ फ़्रंटियर-वर्ग के भाषा मॉडल भेजे। U1 के साथ, SenseTime कुछ विशिष्ट कर रही है: एक मॉडल भेजना जिसे 10 चीनी सिलिकॉन विक्रेताओं (Cambricon, Biren, और संभवतः Huawei Ascend, Moore Threads, Iluvatar, Enflame, और अन्य) ने पहले दिन से सत्यापित किया है। वह समन्वय ही असली उत्पाद है। अमेरिकी निर्यात नियंत्रण प्रशिक्षण के लिए शीर्ष Nvidia चिप्स तक चीनी पहुँच को प्रतिबंधित करते हैं, लेकिन उत्पादन AI अर्थशास्त्र के लिए अनुमान तेज़ी से बाध्यकारी बाधा बनता जा रहा है — और एक ओपन-सोर्स मॉडल जो चीनी एक्सेलेरेटर्स पर मूल रूप से चलता है, पूरे प्रशिक्षण-समय प्रतिबंध शासन के विरुद्ध एक हेज है। Lin स्वीकार करते हैं कि SenseTime "हमारे पुनरावृत्ति की गति सुनिश्चित करने के लिए अभी भी सबसे अच्छे चिप्स का उपयोग कर सकती है" — यानी, प्रशिक्षण चुपचाप जो भी Nvidia हार्डवेयर वे सुरक्षित कर सकते हैं उस पर होता है — लेकिन अनुमान पूरी तरह से संप्रभु हो सकता है।
बिल्डरों के लिए, तीन सीख। पहली, बेंचमार्क समुदाय पर नज़र रखें: Hugging Face और Twitter ML अकाउंट्स के पास संभवतः कुछ ही दिनों में स्वतंत्र eval संख्याएं होंगी, और U1 के "अमेरिकी शीर्ष मॉडलों से कहीं तेज़" दावे को विश्वास करने से पहले मानकीकृत विज़न-भाषा बेंचमार्क (MMMU, MMBench, ScienceQA) पर सत्यापन की आवश्यकता है। दूसरी, बहु-चिप-विक्रेता समर्थन पैटर्न प्रतिकृति योग्य और चुपचाप महत्वपूर्ण है: यदि आप ओपन-सोर्स मॉडल बना रहे हैं, विषम एक्सेलेरेटर्स (केवल Nvidia नहीं) में पोर्टेबिलिटी के लिए डिज़ाइन करना एक रणनीतिक विशेषता बनती जा रही है, बाद की सोच नहीं। तीसरी, यह "गति-पुनरावृत्ति-के-रूप-में-ओपन-सोर्स" व्यापक थीसिस में एक और डेटा बिंदु है — Lin का उद्धरण ("ओपन सोर्स या बंद सोर्स विजेता कारक नहीं है; पुनरावृत्ति की गति है") DeepSeek और Mistral की रणनीतिक शर्त को प्रतिध्वनित करता है। प्रतिबंधों के तहत चीनी AI रणनीति उसी उत्तर पर अभिसरित हुई है: ओपन वज़न भेजें, मालिकाना खाई के नुक़सान को स्वीकार करें, पुनरावृत्ति वेग और पारिस्थितिकी तंत्र चौड़ाई पर जीतें। यह वर्तमान में अमेरिकी फ़्रंटियर लैब्स द्वारा कब्ज़ा की गई स्थिति की तुलना में अधिक टिकाऊ स्थिति है।
