रोबोट लर्निंग की अड़चन कभी ट्रेनिंग नहीं थी — वह मूल्यांकन थी। आप एक पॉलिसी ट्रेन करते हैं, फिर यह जानने के लिए कि वह पिछली से बेहतर है या नहीं, रोबोट लैब को एक हफ्ते के लिए बुक करते हैं। भौतिक दुनिया में बंधा यह मूल्यांकन लूप ही वजह है कि रोबोट फाउंडेशन मॉडल LLM से धीमे इटरेट करते हैं: एक LLM के पास SWE-Bench है जो मिनटों में चलता है, एक रोबोट पॉलिसी के पास "सैकड़ों घंटे लगातार हार्डवेयर संचालन" है। Genesis AI का Genesis World 1.0, जो 27 मई को आया, ठीक इसी पर हमला करता है। दावा: एक ऐसा सिम्युलेटर जो इतना सटीक है कि पॉलिसियों का मूल्यांकन आधे घंटे से कम में कर सके, लूप में न इंसान न हार्डवेयर, उसी सूट के लिए असली रोबोट के 200 से ज़्यादा घंटों के संचालन के मुकाबले।
सुर्खियों वाला आंकड़ा सिम और असली रोलआउट के बीच 0.8996 का पियर्सन सहसंबंध है (95% CI [0.744, 0.931]), पर यह वह नहीं है जिस पर एक बिल्डर को टिकना चाहिए। जो आंकड़ा मायने रखता है वह है Mean Maximum Rank Violation: 0.0166। एक मूल्यांकन हार्नेस को पूर्ण निरपेक्ष सटीकता की ज़रूरत नहीं — उसे आपके उम्मीदवारों को वैसे रैंक करना है जैसे वास्तविकता करती। MMRV 0.017 का मतलब है कि जब सिम कहती है पॉलिसी A पॉलिसी B से बेहतर है, तो वास्तविकता लगभग हमेशा सहमत होती है, 3 मॉडल वेरिएंट, 14 टास्क, हर एक में 200 एपिसोड, दस लाख bootstrap इटरेशन के पार। प्रोटोकॉल है ज़ीरो-शॉट रियल-टू-सिम — पॉलिसियाँ केवल असली डेटा पर ट्रेन की गईं, कोई सिम्युलेटेड प्रीट्रेनिंग मूल्यांकन में लीक नहीं हुई। अंदर: एक एकीकृत मल्टी-फिजिक्स इंजन (रिजिड, FEM, MPM, SPH, PBD); Nyx, एक पाथ-ट्रेस्ड रेंडरर जो हज़ारों समानांतर रोलआउट में बैच होकर 4 मिलीसेकंड में बिना शोर वाला 1080p देता है; और Quadrants, एक Taichi फोर्क जो Python फिजिक्स कर्नेल को CUDA, ROCm, Metal और Vulkan में रिवर्स-मोड ऑटोडिफ के साथ कंपाइल करता है। ईमानदार खामियाँ: SWE-Bench के हज़ारों के सामने 14 टास्क संकरा है, रोबोट एम्बॉडिमेंट का खुलासा नहीं, "0.5 घंटे से कम" के पीछे का हार्डवेयर अस्पष्ट, और — सबसे अहम — संपर्क-समृद्ध दृश्यों पर असली सहसंबंध कभी सत्यापित नहीं हुआ। वे भारी-संपर्क दृश्यों पर 103x तेज़ी का हवाला देते हैं पर यह नहीं कि वे दृश्य वास्तविकता से मेल खाते हैं। संपर्क और विकृत होने वाली वस्तुएँ ठीक वहीं हैं जहाँ सिम-टू-रियल हमेशा टूटा है।
यह इकोसिस्टम के साथ जो करता है वह है ओपन वेट्स की कहानी रोबोटिक माप पर लागू। फिजिक्स इंजन और Quadrants Apache 2.0 हैं; Nyx wheels के रूप में इंस्टॉल होता है। जैसे ओपन LLM मूल्यांकन हार्नेस लैब्स को इस पर प्रतिस्पर्धा कराते हैं कि मॉडल बेहतर कौन, न कि बेंचमार्क कौन नियंत्रित करता है, वैसे ही विश्वसनीय रैंकिंग सटीकता वाला एक ओपन सिम-मूल्यांकन प्लेटफॉर्म एम्बॉडिमेंट दौड़ के लिए माप परत को कमोडिटाइज़ करता है — Physical Intelligence, Skild, Figure, हर रोबोट फाउंडेशन मॉडल कंपनी इटरेशन गति पर जीती या मरती है, और इटरेशन गति मूल्यांकन से बंधी है। कम चर्चित हिस्सा Nyx है: ज़्यादातर फिजिक्स सिम की रेंडरिंग कमज़ोर होती है, और विज़न-आधारित पॉलिसियाँ परसेप्शन गैप पर मरती हैं, सिर्फ डायनेमिक्स गैप पर नहीं। एक असली पाथ-ट्रेसर को फिजिक्स के साथ जोड़ना — और FID के हिसाब से वास्तविकता गैप में दावा की गई 45% कमी — यह दांव है कि कैमरा गैप पाटना उतना ही मायने रखता है जितना संपर्क गैप। Quadrants अपने आप में भी उपयोगी है: मल्टी-बैकएंड डिफरेंशिएबल फिजिक्स का मतलब है कि आप कंप्यूट के लिए NVIDIA से बंधे नहीं हैं, भले ही Nyx रेंडरर अभी भी है।
सोमवार सुबह, अगर आप रोबोट पॉलिसियाँ ट्रेन करते हैं: Apache 2.0 इंजन pip-install करें और सिम मूल्यांकन को एक रैंकिंग प्री-फिल्टर के रूप में जोड़ें जो आपके असली हार्डवेयर मूल्यांकन सेट को छोटा करे — पर उस पर भरोसा करने से पहले अपने खुद के टास्क डिस्ट्रिब्यूशन पर MMRV दोबारा मापें, क्योंकि 14 टास्क आपके मैनिपुलेशन और संपर्क मामलों को कवर नहीं करेंगे, और वहीं सहसंबंध सबसे कम सिद्ध है। इसे एक तेज़ पहली पास मानें, रोबोट का विकल्प नहीं। अगर आप रोबोटिक्स में हैं ही नहीं, तो Quadrants ही टेकअवे है: एक मल्टी-बैकएंड Python-से-GPU कंपाइलर जो CUDA, ROCm, Metal और Vulkan के पार ऑटोडिफ के साथ, किसी भी डिफरेंशिएबल सिमुलेशन काम के लिए उपयोगी, रोबोट फ्रेमिंग से पूरी तरह अलग।
