Alibaba की Qwen टीम, जो open-weight भाषा और vision मॉडल के लिए अधिक जानी जाती है, ने इस सप्ताह Qwen-Robot Suite जारी किया, तीन फाउंडेशन मॉडल का एक सेट जिसका उद्देश्य AI को chatbot से भौतिक कार्रवाई तक ले जाना है। ये तीनों स्वतंत्र रूप से उपयोगी और एक ही लो-लेवल टूलकिट में composable होने के लिए डिज़ाइन किए गए हैं: किसी मशीन को दुनिया में घुमाने के लिए Qwen-RobotNav, उससे संवाद करने के लिए Qwen-RobotManip, और आगे क्या होगा इसकी भविष्यवाणी के लिए Qwen-RobotWorld। मिलकर टीम इन्हें सामान्य-उद्देश्य वाले agents के निर्माण खंड के रूप में प्रस्तुत करती है जो केवल दुनिया को देखते ही नहीं बल्कि उसमें कार्य भी करते हैं।
हर मॉडल एक कठिन समस्या को एक विशिष्ट तरीके से लक्षित करता है। Qwen3-VL पर बना RobotNav पाँच navigation कार्यों को एक ही सेट के weights में समेट देता है, instruction following, point-goal, object-goal, target tracking, और autonomous driving, और एक parameterized interface उजागर करता है (task mode के साथ नियंत्रणीय observation settings जैसे token budget, temporal decay, और per-camera weights); उन parameters को randomized करके 1.56 करोड़ samples पर प्रशिक्षित, इसका उद्देश्य बिना किसी architectural परिवर्तन के inference पर किसी भी configuration के लिए सामान्यीकृत होना है। RobotManip एक vision-language-action मॉडल है जो Qwen-VL के ऊपर बना है, जिसे लगभग 38,100 घंटे के corpus पर प्रशिक्षित किया गया है जो केवल open-source manipulation datasets और मानव demonstration videos से इकट्ठा किया गया है। RobotWorld वह world model है, जो end-effector poses, steering commands, और navigation waypoints को एक ही प्राकृतिक-भाषा action interface में बदल देता है, 86 लाख video-text pairs और 20 करोड़ से अधिक frames पर 20 से अधिक embodiment types और 500 से अधिक action categories को सह-प्रशिक्षित करता है।
रेखांकित करने योग्य हिस्सा डेटा का रुख है। RobotManip का pretraining corpus, टीम के अनुसार, बिल्कुल भी कोई proprietary data संग्रह उपयोग नहीं करता, केवल open datasets और demonstration video। यह मायने रखता है क्योंकि robotics में सामान्य moat ठीक वही चीज़ है जिसे Qwen कहता है कि उसने छोड़ दिया: एक निजी fleet जो teleoperation data इकट्ठा करता है जिसे और कोई छू नहीं सकता। सार्वजनिक डेटा से एक विश्वसनीय manipulation मॉडल बनाना, और स्टैक को ओपन जारी करना, यह एक दांव है कि embodied AI उसी open-weights प्रक्षेपवक्र का अनुसरण कर सकता है जो भाषा मॉडल ने किया, बजाय इसके कि जिसके पास सबसे अधिक रोबोट हैं उसके पीछे बंद रहे।
ईमानदार चेतावनियाँ वही हैं जो इस श्रेणी पर हमेशा लागू होती हैं: ये मॉडल और benchmark परिणाम हैं, दुनिया में काम करते रोबोट नहीं, और EWMBench, DreamGen, WorldModelBench, और PBench पर मजबूत स्कोर और वास्तविक hardware पर विश्वसनीय व्यवहार के बीच का अंतर वही जगह है जहाँ embodied AI आमतौर पर संघर्ष करता है। तीन मॉडल को एक ऐसी मशीन में जोड़ना जो उपयोगी काम करे, यह भी weights डाउनलोड करने से कहीं अधिक है। लेकिन दिशा अचूक है, और यह केवल Qwen नहीं है: NVIDIA ने उसी सप्ताह अपने स्वयं के World-Action Models पेश किए, और जिस परत को अब हर कोई परिभाषित करने की दौड़ में है वह चलने वाली चीज़ों के लिए फाउंडेशन मॉडल है। पिछले साल का world-simulation कार्य पूर्वाभ्यास था; यह क्षेत्र अब परमाणुओं पर कार्य करने की ओर मुड़ रहा है।
