MIT Tech Review ने APEX-Agents बेंचमार्क सामने लाया: फ्रंटियर मॉडल असली कार्यस्थल कार्यों का केवल 33% हल करते हैं

MIT Technology Review के AI न्यूज़लेटर ने आज की कहानी को एक तथाकथित «अंडरपैंट्स ग्नोम» समस्या के इर्द-गिर्द फ्रेम किया: चरण 1 मॉडल बनाओ, चरण 3 उद्यम परिवर्तन, चरण 2 ज़्यादातर हाथ हिलाना। फ्रेमिंग के पीछे का ठोस सबूत Mercor का APEX-Agents बेंचमार्क है, जिसे Will Douglas Heaven ने उद्धृत किया और जो अपने आप में ध्यान देने योग्य है। APEX में शीर्ष निवेश बैंकों, प्रबंधन परामर्श फर्मों और कॉर्पोरेट कानून प्रथाओं में 10+ वर्ष के अनुभव वाले विशेषज्ञों द्वारा बनाए गए 480 पेशेवर कार्य शामिल हैं। एजेंट 33 सिमुलेटेड «दुनिया» के अंदर काम करते हैं, प्रत्येक एक पूर्ण Google Workspace वातावरण है जिसमें Slack थ्रेड्स, Drive फाइलें, स्प्रेडशीट्स और PDFs हैं जिन्हें मॉडल को वास्तव में नेविगेट करना होता है, छीना हुआ API बेंचमार्क नहीं। पिछले सप्ताह तक का लीडरबोर्ड: GPT-5.5 (xhigh) 37.7% पर, GPT-5.4 (xhigh) 33.3% पर, Claude Opus 4.6 33.0% पर, Gemini 3.1 Pro Preview 32.0% पर। Mercor का अपना निष्कर्ष: कोई मॉडल किसी पेशेवर को एंड-टू-एंड बदलने के लिए तैयार नहीं है। MITTR की फ्रेमिंग कठोर है: यह वह डेटा बिंदु है जिसके प्रति AI-काम-को-बदलता-है कथा एलर्जिक रही है।

बेंचमार्क जो तकनीकी वास्तविकता सामने लाता है वह यह है कि फ्रंटियर मॉडल क्षमता में अभिसरित हो रहे हैं जबकि अभी भी तीन में से दो असली कार्यस्थल कार्यों में विफल हो रहे हैं। शीर्ष तीन लैब्स के बीच 1.3 प्रतिशत बिंदु का अंतर अपने आप में आकर्षक है; हम उस बिंदु पर हैं जहां लैब-दर-लैब विभेदन बहु-चरण पेशेवर काम पर पूर्ण क्षमता सीमा से कम मायने रखता है। APEX जो कार्य मापता है वह MMLU या यहां तक कि SWE-Bench जैसे खिलौना बेंचमार्क नहीं हैं; ये ठोस डिलीवरेबल्स हैं जो एक जूनियर बैंकर, वकील या सलाहकार को अपने पहले दो वर्षों में सौंपे जाएंगे, अव्यवस्थित असली Workspace संदर्भ में एम्बेडेड जहां आपको सही स्प्रेडशीट खोजनी होती है, असंरचित Slack थ्रेड को पार्स करना होता है, PDF को क्रॉस-रेफरेंस करना होता है, और एक आउटपुट उत्पन्न करना होता है जिसे एक अन्य पेशेवर स्वीकार करेगा। मॉडल योजना और अनुसंधान उप-चरणों में उत्कृष्टता प्राप्त करते हैं, जो मौजूदा साहित्य से मेल खाता है, लेकिन उस पर विफल होते हैं जिसे Mercor रणनीतिक निर्णय कहता है: काम के वे हिस्से जहां उत्तर यह जानने पर निर्भर करता है कि फर्म या ग्राहक वास्तव में क्या चाहता है, जो किसी भी दस्तावेज में नहीं है। यह MITTR टुकड़े में उद्धृत एक अन्य अध्ययन के साथ सुसंगत है, जहां Anthropic ने कार्य विश्लेषण के आधार पर नौकरी-व्यवधान संभावनाओं की भविष्यवाणी की लेकिन यह स्वीकार करना पड़ा कि यह यह नहीं मापता कि क्या होता है जब एजेंट को असली सहकर्मियों और असली संस्थागत संदर्भ के साथ असली कार्यप्रवाह में डाला जाता है।

व्यापक निहितार्थ AI के बुल केस और बेअर केस दोनों के लिए असुविधाजनक है, जो डेटा को गंभीरता से लेने का हिस्सा है। बुल्स चैट बेंचमार्क और डेमो से एक्सट्रैपोलेट करते हैं «एजेंट 18 महीनों में ज्ञान कार्यकर्ताओं को बदल देंगे»; APEX कहता है वर्तमान फ्रंटियर एजेंट एक जूनियर बैंकर के असली दिन का अधिकांश पूरा नहीं कर सकते। बेअर्स वर्तमान विफलताओं से एक्सट्रैपोलेट करते हैं «यह सब एक बुलबुला है»; APEX यह भी दिखाता है कि GPT-5.5 एक ही पुनरावृत्ति में 33.3 से 37.7 पर कूदता है, जो उन कार्यों पर एक सार्थक क्षमता छलांग है जो गेमिंग का प्रतिरोध करते हैं। ईमानदार पठन वह है जो Mercor लीडरबोर्ड के साथ प्रकाशित करता है: फाउंडेशन मॉडल इस तरह के काम पर लगातार बेहतर हो रहे हैं, सुधार दर वास्तविक है, और पेशेवर-ग्रेड एंड-टू-एंड पूर्णता तक की खाई भी वास्तविक है और अगली तिमाही में बंद नहीं हो रही है। MITTR की «कम अनुमान और अधिक सबूत, मॉडल निर्माताओं से पारदर्शिता, शोधकर्ताओं और व्यवसायों के बीच समन्वय, इस तकनीक का मूल्यांकन करने के नए तरीके» की कॉल अनिवार्य रूप से अधिक APEX-शैली बेंचमार्क के लिए अनुरोध है। अभी कई नहीं हैं; APEX, OSWorld, TAU-Bench, और कुछ अन्य वह भार-वहन कार्य कर रहे हैं जो ARC, MMLU और HumanEval ने पिछली पीढ़ी के लिए किया।

उद्यम में एजेंटिक उत्पाद भेजने वाले निर्माताओं के लिए, क्रियाशील पठन APEX स्कोर को विपणन प्रमाण के बजाय एक विवेक जांच के रूप में मानना है। यदि एक फ्रंटियर मॉडल Workspace-समतुल्य वातावरण में तीन में से एक कार्य पास करता है, तो उत्पादन में आपका एजेंट समान दिखेगा जब तक आपने डोमेन-विशिष्ट मचान (सत्यापनकर्ता, पुनर्प्राप्ति, संकीर्ण उपकरण सेट) नहीं बनाया है जो भौतिक रूप से कार्य सतह को कम करता है। उच्च उद्यम सफलता दरों का दावा करने वाले एजेंट भेजने वाले लैब्स लगभग हमेशा APEX द्वारा मापे जाने वाले की तुलना में बहुत संकीर्ण कार्य वितरण पर रिपोर्ट कर रहे होते हैं, और अंतर वही खाई है जिसे MITTR गायब कहता है। तीन ठोस सुझाव: पहला, जब आप आंतरिक रूप से एजेंटों का मूल्यांकन करें, अव्यवस्थित-Workspace सेटअप का अपना संस्करण बनाएं, स्वच्छ API हार्नेस नहीं; 30-40 प्रतिशत बिंदु के प्रदर्शन अंतर दोनों के बीच नियमित हैं। दूसरा, अपने उत्पाद को रणनीतिक-निर्णय विफलता मोड के आसपास डिज़ाइन करें: उन हिस्सों पर मनुष्यों को लूप में रखें जहां उत्तर एजेंट के देखने योग्य संदर्भ पर निर्भर करता है, उन अनुसंधान-और-ड्राफ्ट उप-चरणों को स्वचालित करें जहां मॉडल वास्तव में अच्छा करते हैं। तीसरा, अपेक्षा करें कि लीडरबोर्ड बढ़ता रहेगा; 18 महीनों में 60-70% APEX स्कोर के आसपास अपना रोडमैप योजना बनाना 2026-में-प्रतिस्थापन या कभी-नहीं की तुलना में अधिक उचित है। असली कहानी चरण 2 में है, और APEX उस फील्ड के पास सबसे करीबी चीज है जो यह मापती है कि उस चरण में हम वास्तव में कितनी दूर हैं।

MIT Tech Review ने APEX-Agents बेंचमार्क सामने लाया: फ्रंटियर मॉडल असली कार्यस्थल कार्यों का केवल 33% हल करते हैं

और समाचार