Microsoft DELEGATE-52: GPT-5.4, Opus 4.6, Gemini 3.1 25% डॉक्स ख़राब करते हैं, Zubnet AI समाचार

Microsoft Research का एक प्रीप्रिंट अभी एक बेंचमार्क DELEGATE-52 के साथ आया है और मुख्य शीर्षक संख्या तीक्ष्ण है: GPT-5.4, Claude Opus 4.6 और Gemini 3.1 Pro लंबे प्रत्यायोजित वर्कफ़्लो के अंत तक औसतन 25% दस्तावेज़ सामग्री ख़राब करते हैं। पेपर — "LLMs Corrupt Your Documents When You Delegate" Philippe Laban, Tobias Schnabel और Jennifer Neville द्वारा — कुल 19 LLMs का मूल्यांकन 52 पेशेवर डोमेन में करता है जिसमें कोडिंग, क्रिस्टलोग्राफ़ी और संगीत नोटेशन शामिल हैं। यह एक प्रीप्रिंट है, अभी तक peer-reviewed नहीं, और बेंचमार्क जानबूझकर एकल-टर्न अनुरोधों के बजाय विस्तारित प्रत्यायोजित वर्कफ़्लो का परीक्षण करता है। वह फ़्रेमिंग मायने रखती है: यह "क्या एक मॉडल एक दस्तावेज़ संपादित कर सकता है" नहीं है बल्कि "क्या होता है जब आप एक मॉडल को एक बहु-चरण संपादन कार्य देते हैं और चले जाते हैं"।

तीन नामित गिरावट कारक ठोस और परीक्षण योग्य हैं: दस्तावेज़ का आकार, इंटरैक्शन की लंबाई, और कार्यशील संदर्भ में विकर्षण फ़ाइलों की उपस्थिति। तीनों रिपोर्ट किए गए परिणामों में भ्रष्टाचार को बदतर बनाते हैं। यह सीधे जंगल में एजेंटिक वर्कफ़्लो के परिचालन रूप पर मैप करता है — लंबे संदर्भ, कई मोड़, कई आसन्न फ़ाइलें जो एजेंट देख सकता है — और बताता है कि क्यों असली कोडबेस पर लंबे Claude Code या Codex सत्र चलाने वाली टीमें उसी वर्ग की विफलताओं की उपाख्यानात्मक रिपोर्ट कर रही हैं। बेंचमार्क उस उपाख्यान को एक संख्या देता है, विशिष्ट फ्रंटियर मॉडल संस्करणों से जुड़ा, विक्रेता आत्म-रिपोर्ट के बजाय प्रकाशित हार्नेस के साथ। Futurism का साथी कवरेज नोट करता है कि Microsoft के अपने Copilot को फ्रंटियर मॉडल मूल्यांकन से बाहर रखा गया था — आप इसे जैसे चाहें पढ़ें, लेकिन अनुपस्थिति को चिह्नित करने योग्य है।

ईमानदार चेतावनियाँ: 25% 52 डोमेन में एक औसत है, और औसत विचरण को छिपाते हैं — डोमेन-वार ब्रेकडाउन के बिना, आप यह नहीं बता सकते कि कोड दस्तावेज़ 5% पर ख़राब होते हैं और क्रिस्टलोग्राफ़ी 60% पर, या क्या परिणाम समान है। सार "सामग्री भ्रष्टाचार" की परिचालन परिभाषा को निर्दिष्ट नहीं करता है — चाहे इसका मतलब तथ्यात्मक त्रुटियाँ, वाक्य रचना टूटना, खोए हुए अनुभाग, मतिभ्रमित जोड़, या कुछ भारित मिश्रित हो। प्रीप्रिंट स्थिति का मतलब है कि कार्यप्रणाली समीक्षा में अलग की जाएगी, और हार्नेस विशिष्टताएँ किसी भी टीम के लिए मायने रखती हैं जो पुन: उत्पादन करने की कोशिश कर रही है। इनमें से कोई भी मुख्य शीर्षक को अमान्य नहीं करता; इसका मतलब है कि मुख्य शीर्षक पढ़ने की शुरुआत है, अंत नहीं।

प्रत्यायोजित वर्कफ़्लो शिप करने वाले बिल्डर्स के लिए: व्यावहारिक निहितार्थ यह है कि "मॉडल को दस्तावेज़ भेजें और इसे दस चरणों के माध्यम से संपादित करने के लिए कहें" अभी तक फ्रंटियर मॉडल गुणवत्ता पर एक सुरक्षित अमूर्तता नहीं है। या तो प्रत्येक कमिट में मानव को रखें, प्रत्यायोजन क्षितिज को छोटा करें, या परिवर्तन प्रसारित करने से पहले प्रत्येक चरण पर दस्तावेज़-अंतर सत्यापन का उपयोग करें। पेपर अपडेट होने पर पूर्ण PDF और प्रति-डोमेन संख्याओं के लिए arxiv.org/abs/2604.15597 देखें — वे संख्याएँ आपको बताएँगी कि किन विशिष्ट प्रकार के दस्तावेज़ कार्य प्रत्यायोजित करने के लिए अभी भी सुरक्षित हैं और कौन से वितरण के 25%-भ्रष्टाचार छोर पर हैं।

Microsoft DELEGATE-52: GPT-5.4, Opus 4.6, Gemini 3.1 25% डॉक्स ख़राब करते हैं

और समाचार