एक चीनी प्रयोगशाला ने 80M पैरामीटर वाला रोबोट 'अनुमस्तिष्क' ओपन सोर्स किया जो बैकफ्लिप और बॉक्सिंग करता है, जिसके लिए उसे कभी प्रशिक्षित ही नहीं किया गया, Zubnet AI समाचार

Galaxy Universal Robotics, एक चीनी ह्यूमनॉइड-रोबोटिक्स कंपनी, ने AstraBrain-WBC 0.5 को ओपन सोर्स किया है, एक फाउंडेशन मॉडल जिसे वह ह्यूमनॉइड रोबोटों के लिए एक सर्वउद्देश्यीय अनुमस्तिष्क के रूप में वर्णित करती है। जहाँ रोबोट का दिमाग उच्च-स्तरीय योजना संभालता है, वहीं अनुमस्तिष्क वह परत है जो वास्तव में शरीर को हिलाती है, और यह मॉडल 29 स्वतंत्रता-कोटियों में पूरे शरीर की रीयल टाइम गति का समन्वय करता है, साथ ही मशीन को संतुलित रखता है। कंपनी इसे इस पैरामीटर पैमाने पर काम करने वाला पहला ह्यूमनॉइड पूर्ण शरीर रीयल टाइम नियंत्रण मॉडल कहती है, और यही संख्या हैरानी की बात है: 8.04 करोड़ पैरामीटर, इतने कम कि एक अकेले RTX 4090 पर 1.5 मिलीसेकंड से कम समय में चल सकें।

इस मॉडल को उस डेटासेट पर प्रशिक्षित किया गया जिसे कंपनी अपनी तरह का सबसे बड़ा मानव-गति डेटासेट बताती है, लगभग 2 अरब फ्रेम जो गति के करीब 20,000 घंटों को समेटे हैं। यह डेटा नृत्य, खेल, रोज़मर्रा के व्यवहार, औद्योगिक संचालन और दो व्यक्तियों की सहयोगात्मक ढुलाई तक फैला है, और इसके पीछे विचार यह है कि मानव गति की इतनी विविधता के संपर्क में आया एक नियंत्रक दिनचर्याओं की किसी निश्चित सूची के बजाय शरीर को हिलाने के सामान्य सिद्धांत सीख लेता है।

सबसे प्रमुख परिणाम है ज़ीरो-शॉट सामान्यीकरण। कंपनी मॉडल को ऐसी जटिल क्रियाएँ करते हुए दिखाती है जो उसके प्रशिक्षण डेटा में नहीं थीं, जिनमें बास्केटबॉल की हरकतें, बॉक्सिंग, नृत्य, कलाबाज़ी और किसी साथी के साथ समन्वित ढुलाई शामिल हैं, बिना उनमें से किसी के लिए दोबारा प्रशिक्षित हुए। शुरू से अंत तक, मोशन कैप्चर से रोबोट तक, यह पूरी प्रक्रिया 20 मिलीसेकंड से कम समय में चलती है। अनदेखी गतियों के लिए सामान्यीकरण ही ह्यूमनॉइड नियंत्रण का कठिन हिस्सा है, जहाँ अधिकांश प्रणालियाँ कौशल-दर-कौशल ट्यून की जाती हैं, इसलिए एक अकेला मॉडल जो पूरे शरीर की नई क्रियाएँ सुधार-कर रच ले, वही दावा देखने लायक है।

जो चीज़ इसे महज़ एक डेमो से बढ़कर बनाती है वह यह है कि पेपर, कोड और परिणाम पूरी तरह ओपन सोर्स किए गए हैं। यह प्रचलित दिशा के बिल्कुल उलट है, जहाँ सबसे सक्षम रोबोट फाउंडेशन मॉडल मालिकाना होते हैं और किसी विशिष्ट प्लेटफ़ॉर्म से बंधे होते हैं, और इसका अर्थ है कि बाहरी शोधकर्ता वास्तव में जाँच सकते हैं कि ज़ीरो-शॉट दावे उनके अपने हार्डवेयर पर टिकते हैं या नहीं। एक छोटा मॉडल जो एक उपभोक्ता GPU पर चलता है, किसी सर्वर के बजाय एक असली रोबोट पर सक्षम नियंत्रण रखने की बाधा को भी कम करता है।

इस तरह के किसी लॉन्च के लिए चेतावनियाँ वही पुरानी हैं। संख्याएँ और विश्व-में-पहला होने का ढाँचा कंपनी की अपनी घोषणा से आते हैं, प्रदर्शन सावधानी से चुने हुए हैं, और नियंत्रित परिवेश के परिणाम अव्यवस्थित वास्तविक दुनिया के कार्यों तक कितनी अच्छी तरह पहुँचते हैं, यही ठीक वह बात है जो पुनरुत्पादन तय करेगा। पर इस दांव का स्वरूप ही दिलचस्प हिस्सा है, और यह इस पल के विरुद्ध जाता है: कोई विशाल मालिकाना दिमाग नहीं, बल्कि एक छोटा, कुशल, खुला नियंत्रक जिसे कोई भी डाउनलोड करके आज़मा सकता है। यदि ज़ीरो-शॉट सामान्यीकरण टिकता है, तो कम पैरामीटरों के साथ रोबोट गति का अधिक हिस्सा करना उसे अधिक पैरामीटरों के साथ करने से कहीं अधिक उपयोगी दिशा है।

और समाचार