SWE-bench Verified दूषित है: OpenAI के फ़रवरी ऑडिट में 59% दोषपूर्ण मामले मिले, Zubnet AI समाचार

23 फ़रवरी को, OpenAI की Frontier Evals टीम ने एक पोस्ट प्रकाशित की जिसमें बताया गया कि उन्होंने SWE-bench Verified स्कोर की रिपोर्टिंग क्यों बंद की। ऑडिट में पाया गया कि बेंचमार्क के सबसे कठिन परीक्षण मामलों में से 59.4% में मूलभूत त्रुटियाँ हैं — परीक्षण जो समस्या कथन में उल्लेखित नहीं किए गए सटीक फ़ंक्शन नामों की माँग करते हैं, या असंबंधित व्यवहार की जाँच करते हैं। अधिक निंदात्मक: परीक्षण किया गया हर बड़ा फ्रंटियर मॉडल — GPT-5.2, Claude Opus 4.5, Gemini 3 Flash — केवल टास्क ID का उपयोग करके मेमोरी से gold-patch समाधानों को verbatim पुन: उत्पन्न कर सकता था। OpenAI का निष्कर्ष सीधा था: "SWE-bench Verified पर सुधार अब वास्तविक दुनिया की सॉफ़्टवेयर विकास क्षमताओं में मॉडलों के सार्थक सुधारों को प्रतिबिंबित नहीं करते"। वे इसके बजाय SWE-bench Pro की सिफ़ारिश करते हैं। तीन महीने बाद, बाक़ी कोडिंग-एजेंट उद्योग अभी भी दूषित बेंच पर ख़ुद को रैंक कर रहा है।

प्रकाशित किए जा रहे वर्तमान शीर्ष-तालिका संख्याएँ हैं: Opus 4.7 पर Claude Code 87.6%, GPT-5.5 पर OpenAI Codex लगभग 88.7% (तीसरे-पक्ष ट्रैकर; OpenAI स्वयं स्व-रिपोर्ट नहीं करता), Gemini CLI 80.6%, OpenHands 72%, Augment Code 70.6% अपने स्वयं के हार्नेस पर स्व-रिपोर्ट किया गया, Cursor डिफ़ॉल्ट पर लगभग 51.7%, GitHub Copilot लगभग 56%। SWE-bench Pro पर — विकल्प जिसे OpenAI अब सिफ़ारिश करता है — वही मॉडल बहुत नीचे बैठते हैं: Claude Opus 4.7 64.3%, GPT-5.5 58.6%। Terminal-Bench 2.0 दूसरा बेंचमार्क है जो विश्वसनीय रहा है: Codex 82.7%, Claude Code 69.4%, Gemini CLI 68.5%। दो बेंचमार्क परिवारों के बीच का अंतर स्वयं संकेत है: जब एक eval के स्कोर मॉडलों को सीलिंग के विरुद्ध संकुचित करते हैं और दूसरे eval के स्कोर उन्हें फैलाते हैं, तो दूसरा भेदभाव का काम कर रहा है।

गहरा मुद्दा बेंचमार्क-अधिकतमीकरण और उत्पादकता-अधिकतमीकरण के बीच का अंतर है। एजेंट scaffolding अकेले समान मॉडलों पर लगभग ±17 समस्याओं की भिन्नता उत्पन्न करता है, जिसका अर्थ है कि किसी भी दिए गए रन में हार्नेस विकल्प मॉडल विकल्प पर हावी हो सकते हैं। कोई भी सार्वजनिक रैंकिंग प्रकाशित हार्नेस विनिर्देश के साथ नहीं आती है, इसलिए विक्रेताओं के बीच apples-to-apples तुलना वास्तव में नहीं चलाई जा रही है — केवल apples-vs-प्रत्येक विक्रेता के अपने नंबर। बिल्डर्स के लिए व्यावहारिक निहितार्थ यह है कि सही तुलना "कौन सा एजेंट SWE-bench Verified पर अग्रणी है" नहीं है, बल्कि "कौन सा एजेंट मेरे CI और मेरी शैली परंपराओं के साथ मेरी कोडबेस पर मेरे कार्यों को हल करता है"। काम करने वाली अनुभवजन्य विधि है अपने वास्तविक बैकलॉग से 50 से 100 कार्यों को दो या तीन उम्मीदवारों के विरुद्ध चलाना और स्कोर के बजाय परिणामों को मापना।

वह सिफ़ारिश पैटर्न जो वास्तव में डेटा में फ़िट होता है वह एकल-उपकरण बेट के बजाय एक स्तरीकृत स्टैक है। टर्मिनल एजेंट — Claude Code या Codex — मल्टी-फ़ाइल रीफ़ैक्टर, वास्तुशिल्प परिवर्तन, और उस प्रकार की डिबगिंग पर अपनी लागत कमाते हैं जो अन्यथा एक वरिष्ठ इंजीनियर की दोपहर को जला देगी। IDE एक्सटेंशन — Cursor या GitHub Copilot — इनलाइन कम्प्लीशन, त्वरित संपादन, और दिनचर्या के काम के दौरान ambient सहायता पर अपनी लागत कमाते हैं। ओपन-सोर्स एजेंट — Aider, Cline, OpenHands — तब अपनी लागत कमाते हैं जब आप मॉडल स्वैप करना, प्लेटफ़ॉर्म मार्कअप से बचना, या एजेंट व्यवहार को एंड-टू-एंड ऑडिट करना चाहते हैं। एक से अधिक का उपयोग करना अनिर्णय नहीं है; यह विशेषज्ञता का ईमानदार उत्तर है। बेंचमार्क पक्ष पर: SWE-bench Verified अब आपका दोस्त नहीं है। SWE-bench Pro, Terminal-Bench 2.0, और आपकी अपनी कोडबेस हैं।

SWE-bench Verified दूषित है: OpenAI के फ़रवरी ऑडिट में 59% दोषपूर्ण मामले मिले

और समाचार