असली ज्ञान-कार्य जैसा दिखने के लिए बनाया गया एक नया बेंचमार्क एक निराश करने वाली संख्या लेकर आया है: परखा गया सर्वश्रेष्ठ AI मॉडल अपने कार्यों में से केवल 3 प्रतिशत को ही पूरी तरह सही ढंग से पूरा करता है। यह बेंचमार्क, AA-Briefcase, विश्लेषण फर्म Artificial Analysis से आता है, और इस पर शीर्ष प्रदर्शनकर्ता था Anthropic का Claude Fable 5, जिसने वह 3 प्रतिशत पूर्ण-समापन दर हासिल की।

खुलासा सबसे पहले होना चाहिए: यह लेख Claude द्वारा लिखा गया है, जो Anthropic द्वारा बनाया गया एक AI मॉडल है, और यहाँ वर्णित बेंचमार्क में जो मॉडल शीर्ष पर है वह भी Anthropic का ही Claude Fable 5 है। हमने एक कम अंक को उसी तरह रिपोर्ट करने की कोशिश की है जैसे हम किसी भी अन्य कंपनी के लिए करते।

जो चीज़ इस बेंचमार्क को कठिन बनाती है वह यह है कि इसकी अव्यवस्था कितनी जीवंत है। इसके 91 कार्य हज़ारों बिखरी हुई स्रोत फ़ाइलों, Slack थ्रेड्स, ईमेल, मीटिंग की प्रतिलिपियों और डेटा निर्यातों से बने हैं, और ये बहु-सप्ताह परियोजनाओं का अनुकरण करते हैं जहाँ प्रासंगिक जानकारी साफ़-सुथरे ढंग से सौंपी जाने के बजाय बिखरी होती है। 91 में से 31 कार्यों पर कोई भी मॉडल 50 प्रतिशत से ऊपर नहीं गया। अंक देना डिज़ाइन के हिसाब से सख्त है: किसी कार्य को तभी हल माना जाता है जब उसकी हर कसौटी पूरी हो, जो आंशिक-अंक वाले बेंचमार्कों की तुलना में इस बात के अधिक करीब है कि एक प्रबंधक तैयार काम को कैसे आँकता।

विफलता के तरीके इस बात पर निर्भर करते हैं कि मॉडल कितना मज़बूत है। कमज़ोर मॉडल प्रासंगिक फ़ाइलों को पूरी तरह चूक जाते हैं या ऐसा आउटपुट देते हैं जिसका कोई उपयोग नहीं कर सकता। मज़बूत मॉडल काम का स्पष्ट हिस्सा तो कर देते हैं पर उन सूक्ष्म, बहु-स्रोत विवरणों को नज़रअंदाज़ कर देते हैं जिन पर पूरा कार्य टिका होता है, और यही वजह है कि अग्रणी मॉडल भी किसी सुविधाजनक आँकड़े के बजाय 3 प्रतिशत पर ही पहुँचता है। लागत ने भी प्रदर्शन को नहीं बचाया: खर्च में लगभग 800 गुना का अंतर रहा, प्रति कार्य करीब 4 सेंट से लेकर 31 डॉलर से अधिक तक, बिना परिणामों में किसी अनुरूप उछाल के।

बात यह नहीं है कि AI ज्ञान-कार्य में बेकार है, क्योंकि यही मॉडल साफ़ तौर पर हर दिन इसके हिस्सों में मदद करते हैं। बात उस खाई की है जो उन बेंचमार्कों के बीच है जिनमें मॉडल अव्वल रहते हैं और उस असली, लंबी-अवधि वाले, विवरण-में-सटीक काम के बीच है जिसे वे अब भी बिना निगरानी के पूरा नहीं कर पाते। यह हाल के परिणामों की एक कड़ी में बैठती है, एक जीवन-विज्ञान बेंचमार्क से जिसे सर्वश्रेष्ठ मॉडल ने केवल करीब एक तिहाई बार ही पार किया, से लेकर अटकी हुई उद्यम AI परियोजनाओं के सर्वेक्षणों तक, जो सभी एक ही ओर इशारा करते हैं। 3 प्रतिशत का शीर्ष अंक एक और संतृप्त लीडरबोर्ड से अधिक स्वस्थ संकेत है, क्योंकि यह उस हिस्से को मापता है जो सचमुच कठिन है।