Datacurve DeepSWE: GPT-5.5 70%, Claude 4.7 54%, Gemini 3.1 Pro 10% — harness पढ़ें

Datacurve ने DeepSWE जारी किया, एक लॉन्ग-होरिज़ोन सॉफ्टवेयर इंजीनियरिंग बेंचमार्क जिसमें 5 भाषाओं में 91 रिपॉजिटरीज में 113 टास्क हैं। रिपोर्ट किए गए शीर्ष स्कोर: GPT-5.5 70%, GPT-5.4 56%, Claude Opus 4.7 54%, Gemini 3.1 Pro 10%। शीर्षक "GPT-5.5 जीतता है" पढ़ता है। बिल्डर्स के लिए दिलचस्प कहानी पद्धति पृष्ठ में है, लीडरबोर्ड में नहीं।

बेंचमार्क की चार घोषित प्रगतियाँ: मौजूदा PR या commits से अनुकूलित होने के बजाय स्क्रैच से लिखे गए टास्क, एक deep-swe-canary GUID एम्बेड किया गया ताकि यदि कॉर्पस प्रीट्रेनिंग में लीक हो तो संदूषण का पता लगाया जा सके; 91 repos और 5 भाषाओं को कवर करते हुए; SWE-bench Pro की prompts लंबाई का लगभग आधा लेकिन समाधानों को 5.5x अधिक कोड और ~2x अधिक आउटपुट टोकन की आवश्यकता; हाथ से लिखे verifiers जो कार्यान्वयन विवरण के बजाय सॉफ्टवेयर व्यवहार का परीक्षण करते हैं। सभी मॉडल एक सामान्य scaffold के लिए mini-swe-agent के माध्यम से चलते हैं। टास्क उदाहरण गैर-तुच्छ हैं — "etree में XML diff, patch, और merge ऑपरेशन जोड़ें", "wasmi में trap coredump जनरेशन जोड़ें", "PromQL लेबल सॉर्टिंग को typed और untyped मानों में ठीक करें" — काम जो agentic युग से पहले इंजीनियरों के घंटे लेता था। तुलना में तर्क बजट स्तर असममित: GPT-5.5 xhigh पर चला, Claude Opus 4.7 max पर, Gemini 3.1 Pro बिना लेबल।

बिल्डर्स के लिए दो प्रासंगिक पठन। पहला: GPT-5.5 और Gemini 3.1 Pro के बीच 60-पॉइंट का अंतर एक मॉडल के tool-use मुहावरे की ओर बेंचमार्क संरचनात्मक पूर्वाग्रह पर संदेह करने के लिए काफी बड़ा है, विशेष रूप से एक नए eval पर जहाँ harness परंपराएँ मायने रखती हैं। SWE-bench Verified स्कोर तब संकीर्ण हो गए जब क्षेत्र के पास कई scaffolds पर फिर से चलने का समय था; DeepSWE संभवतः उसी चाप का अनुसरण करेगा। दूसरा: Datacurve डेटा सेवाओं के व्यवसाय में है, इसलिए एक बेंचमार्क जो foundation मॉडलों को रैंक करता है वह उस कंपनी के लिए विज्ञापन भी है जिसने इसे बनाया। यह eval को अमान्य नहीं करता, लेकिन इसका मतलब है कि लीडरबोर्ड load-bearing होने से पहले स्वतंत्र पुन: निष्पादन माँगता है। mini-swe-agent harness विकल्प एक scaffold है — OpenHands, Aider, Claude Code-शैली के harnesses समान टास्क पर विभिन्न सापेक्ष ऑर्डरिंग उत्पन्न करेंगे।

यदि आप सोमवार सुबह कोड का उपयोग करने वाले agents भेजते हैं: किसी भी नए SWE बेंचमार्क के नंबरों को ऑर्डरिंग के रूप में मानने से पहले उसकी पद्धति अनुभाग पढ़ें। canary GUID, scaffold प्रकटीकरण, तर्क बजट सामान्यीकरण, और क्या eval एक Docker कंटेनर में रहता है जिसे आप स्वयं चला सकते हैं देखें। पद्धति प्रवृत्ति पर शर्त लगाएँ, लीडरबोर्ड शीर्षक पर नहीं।

Datacurve DeepSWE: GPT-5.5 70%, Claude 4.7 54%, Gemini 3.1 Pro 10% — harness पढ़ें

और समाचार