Sony AI ने इस महीने Nature में Project Ace प्रकाशित किया, और हेडलाइन नंबर यह है कि उनका टेबल टेनिस रोबोट दस या ज़्यादा साल के अनुभव वाले एलीट खिलाड़ियों के ख़िलाफ़ पाँच में से तीन गेम जीतता है, और दिसंबर 2025 से अब तक के मैचों में कई उच्च-स्तरीय पेशेवरों को हरा चुका है। यह Google DeepMind के 2024 के टेबल टेनिस रोबोट से एक सार्थक कदम आगे है, जो लगभग शौकिया स्तर पर खेलता था। प्रोजेक्ट लीड Peter Dürr की टीम अब तक का सबसे मज़बूत दावा कर रही है "किसी भी प्रतिस्पर्धी शारीरिक खेल में विशेषज्ञ-स्तरीय प्रदर्शन" का — एक श्रेणी जिसके लिए पहले या तो केवल-सिम वातावरण चाहिए था या ऐसे रोबोट जो सिर्फ़ एक या दो प्रशिक्षित परिदृश्यों को संभाल सकते थे।
डेवलपर के नज़रिए से इस पेपर को दिलचस्प बनाने वाली बात डीप रीइन्फ़ोर्समेंट लर्निंग नहीं है। RL परंपरागत है: एक पॉलिसी जो गेंद की स्थिति लेती है और भविष्यवाणी करती है कि पैडल कहाँ स्विंग करना है। जो इसे काम करने योग्य बनाता है वो है पर्सेप्शन स्टैक: तीन विज़न सिस्टम्स में नौ कैमरे, 200 Hz पर मिलीमीटर-स्तर सटीकता और लगभग दस मिलीसेकंड लेटेंसी के साथ बॉल ट्रैकिंग, और 700 Hz तक स्पिन माप। टेबल टेनिस मूल रूप से कंट्रोल समस्या होने से पहले एक पर्सेप्शन समस्या है — 30 मीटर प्रति सेकंड पर चलती 40-मिलीमीटर की गेंद आपको स्पिन पढ़ने, प्रक्षेपवक्र की भविष्यवाणी करने, शॉट तय करने और स्विंग करने के लिए लगभग 50 मिलीसेकंड देती है। पर्सेप्शन को दस मिलीसेकंड से नीचे लाओ और एक सक्षम कंट्रोल पॉलिसी बाक़ी कर सकती है। 30 मिलीसेकंड पर रखो और आप हमेशा गेंद कहाँ थी इसका जवाब दे रहे हैं, कहाँ है का नहीं।
पेपर में ईमानदार सीमा, एक विरोधी प्रो खिलाड़ी ने सामने लाई, यह है कि रोबोट इंसानों की तरह अनुकूल नहीं होता। उद्धरण — "महसूस करना असंभव कि उसे किस तरह के शॉट्स पसंद नहीं हैं" — यह बिल्कुल उल्टा है कि उच्च-स्तरीय मानव खेल कैसे काम करता है। इंसान विरोधी की बॉडी लैंग्वेज, बैकस्विंग पर पैडल कोण और वज़न ट्रांसफ़र पढ़कर गेंद के मारे जाने से पहले ही शॉट दिशा की भविष्यवाणी करते हैं, और कई बिंदुओं तक रैली को विरोधी की कमज़ोरियों की ओर मोड़ते हैं। Project Ace हर गेंद साफ़ खेलता है पर मैच भर में इंसान को नहीं सीखता। Sony इसे स्वीकार करता है; "अपने विरोधी के अनुकूल होना और कमज़ोरियाँ ढूंढना" खुला शोध क्षेत्र है। वही गैप "कभी-कभी अच्छे खिलाड़ियों को हरा देता है" को "टूर्नामेंट जीतता है" से अलग करता है।
एम्बॉडीड AI के बारे में सोच रहे डेवलपर्स के लिए, Sony का परिणाम इस कथा में एक उपयोगी सुधार है कि अड़चन हमेशा मॉडल होती है। इस मामले में मॉडल काफ़ी मानक है, एम्बॉडीमेंट अत्यधिक विशिष्ट है, और सफलता सेंसर फ़्यूज़न और रियल-टाइम पर्सेप्शन है। वही सबक किसी भी रोबोटिक्स प्रोडक्ट पर लागू होता है जिसे तेज़ी से बदलते भौतिक राज्य पर प्रतिक्रिया करनी होती है: आप पॉलिसी पर मनमाना कंप्यूट डाल सकते हैं, पर अगर आपका पर्सेप्शन लूप उस डायनैमिक्स से धीमा है जिसकी आप परवाह करते हैं, तो पॉलिसी की गुणवत्ता अप्रासंगिक है। फ़िज़िकल AI डेमो की अगली लहर जिसे गंभीरता से लिया जाना चाहिए वो होगी जो अपनी पॉलिसी बेंचमार्क के साथ-साथ सेंसिंग लेटेंसी और सटीकता प्रकाशित करती है। Sony ने किया। जो पेपर नहीं करते वो आमतौर पर कुछ छिपा रहे हैं।
