Google DeepMind ने Gemini Robotics लॉन्च किया, एक Vision-Language-Action मॉडल जो Gemini 2.0 पर बना है और अलग-अलग हार्डवेयर प्लेटफॉर्म पर रोबोट्स को सीधे कंट्रोल करने का दावा करता है। सिस्टम ओरिगामी फोल्ड करना और कार्ड खेलना जैसे जटिल मैनिपुलेशन टास्क संभाल सकता है, बाई-आर्म प्लेटफॉर्म सहित नए रोबोट embodiments के अनुकूल हो सकता है, और केवल 100 प्रदर्शनों से नए काम सीख सकता है। DeepMind कहता है कि यह unseen environments के साथ काम करता है और open vocabulary instructions का पालन करते हुए "smooth और reactive movements" execute करता है।
यह embodied AI में Google की सबसे आक्रामक पुश को दर्शाता है, chatbots से आगे बढ़कर भौतिक दुनिया के नियंत्रण की तरफ। टाइमिंग संयोग नहीं है—robotics कंपनियां hardware-software integration की समस्या हल करने की दौड़ में हैं जिसने उपयोगी रोबोट्स को real environments से दूर रखा है। DeepMind का एक generalist मॉडल ट्रेन करने का approach जो किसी भी रोबोट बॉडी के अनुकूल हो सके, fragmentation की समस्या हल कर सकता है जिसने दशकों से robotics को परेशान किया है।
इसी बीच, KAIST के researchers ने Robot-R1 रिलीज़ किया, supervised fine-tuning के बजाय reinforcement learning के साथ एक अलग approach अपनाते हुए। वे argue करते हैं कि पारंपरिक training methods robotics tasks में "catastrophic forgetting और reduced generalization performance" की ओर ले जाती हैं। Robot-R1 task completion के लिए keypoint states predict करना सीखता है, DeepSeek-R1 के reasoning approach से प्रेरित होकर। competing methodologies general-purpose robotics के लिए सबसे अच्छे रास्ते के बारे में ongoing uncertainty को highlight करती हैं।
Developers के लिए, practical सवाल यह है कि क्या ये मॉडल वाकई API के रूप में ship होंगे जिन्हें आप इस्तेमाल कर सकते हैं, या research demos बने रहेंगे। DeepMind का track record cautious optimism सुझाता है—उन्होंने पहले production models deliver किए हैं, लेकिन robotics ने hype में अरबों जला दिए हैं। असली परीक्षा यह है कि क्या Gemini Robotics इतनी विश्वसनीयता से काम करता है कि कोई इस पर अपना product दांव पर लगाए।
