एजेंटिक रीज़निंग बेंचमार्क की मौजूदा फसल में दिलचस्प बात यह है कि वे मॉडल वास्तव में कितने अच्छे हैं इस पर कितना असहमत हैं। SWE-bench Verified में फ्रंटियर सिस्टम 80% से ऊपर हैं, जो सुनने में हल हुआ लगता है। OSWorld, जो ऐप्लिकेशन्स के बीच कंप्यूटर उपयोग मापता है, उन्हें 72.36% मानव baseline के मुकाबले 12.24% पर रखता है — मूल रूप से दूसरा ग्रह। ARC-AGI-1 90%+ पर संतृप्त है, ARC-AGI-3 मार्च 2026 तक फ्रंटियर को 1% से नीचे रखता है। τ-bench एकल-परीक्षण सफलता 50% से कम और pass^k स्थिरता 25% से नीचे दिखाता है। स्कोर शोर नहीं हैं; वे अलग चीज़ें माप रहे हैं, और सबसे चापलूस बेंचमार्क और सबसे ईमानदार बेंचमार्क के बीच का फासला अब असली कहानी है।
स्कोर प्रकाशित करने वाले हर किसी को दोहराने के लिए मजबूर की जानी चाहिए ऐसी मेथडोलॉजी चेतावनी: एजेंट परिणाम scaffold पर निर्भर हैं। मॉडल एक चर है। प्रॉम्प्ट डिज़ाइन, टूल एक्सेस, रिट्राई बजट, एक्ज़ीक्यूशन एनवायरनमेंट और इवैल्यूएटर वर्शन बाकी सब चर हैं। Anthropic का अपना scaffold चलाने वाला SWE-bench Verified स्कोर और किसी थर्ड-पार्टी इवैल्यूएटर का उसी मॉडल पर SWE-bench Verified स्कोर डबल डिजिट से अलग हो सकते हैं। जब कोई vendor 80% कहता है, सही अगला सवाल है "किस scaffold के साथ, किस टूल stack और किस रिट्राई पॉलिसी के साथ" — "बढ़िया, शिप करो" नहीं। Sierra τ-bench टीम ने pass^k पेश करके इस बिंदु का सबसे मज़बूत संस्करण बनाया, जो मापता है कि एजेंट उसी कार्य पर k बार लगातार सफल होता है या नहीं। pass@1 से pass^8 तक की गिरावट हर मॉडल पर क्रूर है, और वही विश्वसनीयता का फासला है जो प्रोडक्शन डिप्लॉयमेंट वास्तव में टकराते हैं।
OSWorld वो बेंचमार्क है जो सबसे साफ़ तरीके से उजागर करता है कि demo और deployment के बीच का फासला कहां रहता है। एक इंसान क्रॉस-एप्लिकेशन GUI कार्यों पर 72% पाता है। सबसे अच्छा फ्रंटियर मॉडल 12% पाता है। यह ऐसा बेंचमार्क नहीं है जिसे कठिन सवालों की ज़रूरत हो; यह ऐसी मॉडल क्लास है जो अभी भी नहीं जानती कि कंप्यूटर को इंसान की तरह कैसे चलाना है। ज़्यादातर अन्य एजेंटिक बेंचमार्क टेक्स्ट-ओनली या API-ओनली एनवायरनमेंट में चलते हैं जहां एजेंट साफ़ टूल्स कॉल कर सकता है — OSWorld उससे बटन क्लिक करवाता है, विंडो स्विच करवाता है, OS जो भी फेंकता है उससे निपटवाता है। 60-पॉइंट का फासला वही सही नंबर है जो दीवार पर लगाना है जब कोई आपको "आपका कंप्यूटर इस्तेमाल करने वाले AI असिस्टेंट" का स्लीक demo दिखाए। Demo स्क्रिप्टेड हैं। OSWorld नहीं है।
डेवलपर्स के लिए व्यावहारिक रीडिंग लिस्ट ऐसी दिखती है: कोड-रिपेयर विशेषीकरण के लिए SWE-bench Verified, बार-बार के परीक्षणों में विश्वसनीयता के लिए τ-bench, कंप्यूटर-उपयोग ग्राउंडिंग के लिए OSWorld, मल्टी-स्टेप वेब रीज़निंग के लिए GAIA, नए विज़ुअल रीज़निंग के लिए ARC-AGI-2, नेविगेशन के लिए WebArena, क्रॉस-एनवायरनमेंट चौड़ाई के लिए AgentBench। कोई भी अकेले काफ़ी नहीं है। कोई भी प्रति-कार्य लागत, एडवर्सेरियल इनपुट के तहत सुरक्षा, या विज़न से परे मल्टीमॉडल रीज़निंग नहीं मापता — ये वो खाली जगहें हैं जिन्हें फ़ील्ड ने अभी संबोधित नहीं किया। दो या तीन चुनो जो आपके वास्तविक प्रोडक्ट से मेल खाते हैं, सार्वजनिक eval के खिलाफ़ अपना scaffold चलाओ, और vendor की हेडलाइन संख्याओं को मार्केटिंग की तरह तब तक treat करो जब तक तुम उन्हें reproduce न कर लो। स्कोरबोर्ड किसी ने अभी तक क्या नहीं हल किया उसके मानचित्र के रूप में अधिक उपयोगी है, बजाय इसके कि क्या दावा किया गया उसके लिए विजय यात्रा।
