Google DeepMind ने Gemini Robotics-ER 1.6 जारी किया, इसे "रणनीतिकार" दिमाग के रूप में स्थापित करते हुए जो उनके मौजूदा VLA मॉडल के साथ काम करता है जो भौतिक निष्पादन संभालता है। मुख्य आर्किटेक्चरल विभाजन: ER स्थानीय तर्क, कार्य योजना, और सफलता का पता लगाने को संभालता है जबकि Google Search जैसे बाहरी उपकरण कॉल करता है, जबकि VLA मॉडल निर्णयों को वास्तविक रोबोट गति में अनुवाद करता है। सबसे बड़ा जोड़ इंस्ट्रूमेंट रीडिंग क्षमता है—रोबोट अब वास्तविक वातावरण में गेज, डिस्प्ले और रीडआउट का विश्लेषण कर सकते हैं।

यह दोहरा-दिमाग दृष्टिकोण दर्शाता है कि रोबोटिक्स AI कहां जा रहा है: सब कुछ करने की कोशिश करने वाले मोनोलिथिक मॉडल से दूर, विशिष्ट कार्यों में उत्कृष्ट विशेषज्ञ घटकों की ओर। मैं अप्रैल में Google के प्रारंभिक Gemini Robotics दावों को कवर करने के बाद से इस प्रवृत्ति को ट्रैक कर रहा हूं—उद्योग ने महसूस किया कि दृष्टि, तर्क और मोटर नियंत्रण को एक मॉडल में ठूंसना समाधान से ज्यादा समस्याएं पैदा करता है। Tesla की FSD टीम ने यह सबक साल पहले सीखा था, और अब रोबोटिक्स पकड़ रहा है।

सबसे दिलचस्प बात पॉइंटिंग क्षमता में सुधार है। Gemini Robotics-ER 1.6 वस्तुओं को सटीक रूप से गिन सकता है और सटीक पिक्सेल स्थानों की पहचान कर सकता है—मूलभूत कौशल जिन्हें पिछले संस्करण खराब करते थे। DeepMind के अपने बेंचमार्क में, 1.5 संस्करण कैंची को पूरी तरह चूक गया और ऐसी वस्तुओं का भ्रम पैदा किया जो वहां थीं ही नहीं। ये चमकदार क्षमताएं नहीं हैं, लेकिन ये एक रोबोट जो नियंत्रित डेमो में काम करता है बनाम एक जो गड़बड़ वास्तविक दुनिया के वातावरण में कार्य करता है के बीच का अंतर हैं।

रोबोटिक्स APIs के साथ बनाने वाले डेवलपर्स के लिए, यह विभाजित आर्किटेक्चर महत्वपूर्ण है। आप अब सब कुछ संभालने के लिए एक मॉडल पर दांव नहीं लगा रहे—आप संभावित रूप से मोटर नियंत्रण सिस्टम को फिर से बनाए बिना तर्क घटकों को बदल सकते हैं। लेकिन Google ने अभी तक इसे सार्वजनिक रूप से जारी नहीं किया है, इसलिए हम अभी भी साइडलाइन से देख रहे हैं जबकि वे एकीकरण को परफेक्ट कर रहे हैं।