MolmoAct ट्यूटोरियल दिखाता है कि विज़न-लैंग्वेज मॉडल रोबोट कैसे नियंत्रित करते हैं

AllenAI के MolmoAct-7B मॉडल के लिए एक विस्तृत कोडिंग ट्यूटोरियल बताता है कि विज़न-लैंग्वेज मॉडल को रोबोटिक नियंत्रण कार्यों के लिए कैसे अनुकूलित किया जा रहा है। कार्यान्वयन वॉकथ्रू मल्टी-व्यू इमेज प्रोसेस करने, गहराई-जागरूक स्थानिक तर्क उत्पन्न करने, विज़ुअल ट्रैजेक्टरीज़ ट्रेस करने, और प्राकृतिक भाषा निर्देशों से कार्रवाई योग्य रोबोट कमांड आउटपुट करने की मॉडल की क्षमता प्रदर्शित करता है। MolmoAct 7 अरब पैरामीटर आर्किटेक्चर का उपयोग करता है जो मानव कमांड और रोबोट क्रियाओं के बीच की खाई को पाटने के लिए कंप्यूटर विज़न को भाषा समझ के साथ जोड़ता है।

यह रोबोटिक्स AI आर्किटेक्चर में एक महत्वपूर्ण बदलाव का प्रतिनिधित्व करता है। पारंपरिक रोबोट नियंत्रण प्रणालियां विशेष परसेप्शन पाइपलाइनों, पथ नियोजन एल्गोरिदम और लो-लेवल मोटर कंट्रोलर्स पर निर्भर करती हैं। MolmoAct जैसे विज़न-लैंग्वेज मॉडल इन कार्यों को एक एकल न्यूरल नेटवर्क में समेकित करने का प्रस्ताव करते हैं जो 3D स्पेस के बारे में तर्क कर सके, जटिल निर्देशों को समझ सके और उचित क्रियाएं उत्पन्न कर सके। यह दृष्टिकोण दर्शाता है कि कैसे बड़े भाषा मॉडलों ने कई NLP उप-कार्यों को अवशोषित किया — लेकिन रोबोटिक्स रियल-टाइम प्रदर्शन, सुरक्षा और भौतिक दुनिया की बाधाओं के आसपास अनूठी चुनौतियां प्रस्तुत करता है।

यह ट्यूटोरियल गहराई-जागरूक एक्शन लर्निंग में व्यापक शोध के साथ सामने आता है। UNC Charlotte के शोधकर्ताओं की एक प्रतिस्पर्धी दृष्टिकोण UniLACT, गहराई-जागरूक लेटेंट प्रीट्रेनिंग के माध्यम से ज्यामितीय संरचना को शामिल करके समान चुनौतियों का समाधान करता है। उनका काम एक प्रमुख सीमा को उजागर करता है: RGB-ओनली मॉडल सटीक मैनिपुलेशन में संघर्ष करते हैं क्योंकि उनमें स्पष्ट 3D समझ की कमी होती है। दोनों दृष्टिकोण सुझाव देते हैं कि क्षेत्र विश्वसनीय रोबोटिक नियंत्रण के लिए गहराई एकीकरण को आवश्यक मानकर अभिसरण कर रहा है।

रोबोटिक सिस्टम बनाने वाले डेवलपर्स के लिए, ये मॉडल दिलचस्प संभावनाएं प्रदान करते हैं लेकिन सावधानीपूर्ण मूल्यांकन की आवश्यकता है। जबकि एकीकृत आर्किटेक्चर पारंपरिक रोबोटिक्स स्टैक की तुलना में विकास को सरल बनाता है, लेटेंसी, विफलता मोड और कॉन्टैक्ट-रिच कार्यों पर प्रदर्शन के बारे में प्रश्न बने हुए हैं। MolmoAct में 256-टोकन आउटपुट सीमा और तापमान सेटिंग्स सुझाव देती हैं कि इन मॉडलों को अभी भी विश्वसनीय रोबोट क्रियाएं उत्पन्न करने के लिए महत्वपूर्ण बाधाओं की आवश्यकता है।

MolmoAct ट्यूटोरियल दिखाता है कि विज़न-लैंग्वेज मॉडल रोबोट कैसे नियंत्रित करते हैं

और समाचार