एक मानक परीक्षण जो AI मॉडलों के मूल्यांकन और तुलना के लिए उपयोग किया जाता है। बेंचमार्क विशिष्ट क्षमताओं — तर्क (ARC), गणित (GSM8K), कोडिंग (HumanEval), सामान्य ज्ञान (MMLU) — को मापते हैं और मॉडलों के बीच तुलना करने वाले स्कोर उत्पन्न करते हैं।
अधिकांश AI मानक एक सरल सूत्र का पालन करते हैं: मॉडल को ज्ञात सही उत्तरों वाले प्रश्नों या कार्यों का एक सेट दें, अनुमान चलाएं, और एक सटीकता स्कोर की गणना करें। उदाहरण के लिए, MMLU एक बहुविकल्पीय परीक्षा है जो अमूर्त बीजगणित से विश्व धर्म तक 57 विषयों को शामिल करती है। HumanEval मॉडल से पायथन फ़ंक्शन लिखने के लिए कहता है जो यूनिट टेस्ट पास करता है। GSM8K एक ग्रेड स्कूल गणित शब्द समस्या प्रस्तुत करता है। मानक स्कोर मॉडल द्वारा सही किए गए प्रतिशत होता है, कभी-कभी वजह से या श्रेणी द्वारा विभाजित। अंतर्निहित रूप से, कई मानक मॉडलों का मूल्यांकन शून्य-शॉट या कुछ-शॉट सेटिंग में करते हैं — अर्थात, मॉडल को उत्तर देने से पहले कोई उदाहरण या केवल कुछ दिया जाता है। यह वास्तविक क्षमता के बजाय एक विशिष्ट फॉर्मेट पर पैटर्न मैचिंग के बजाय मापने के लिए होता है।
AI में मानकों का इतिहास एक ऐसी कहानी है जहां लक्ष्य खंभे लोगों के अपेक्षा से तेजी से चलते रहते हैं। 2018 में जारी GLUE भाषा समझ के एक कठिन परीक्षण होना चाहिए था। एक वर्ष में मॉडल मनुष्य के मानकों को पार कर गए, इसलिए 2019 में SuperGLUE आया। वह भी गिर गया। MMLU (2020) को लंबे समय तक टिके रहने के लिए डिज़ाइन किया गया था, और यह कर गया — कुछ समय के लिए। 2024 के अंत तक, सीमा वाले मॉडल MMLU पर 90% से अधिक स्कोर कर रहे थे, और समुदाय पहले ही MMLU-Pro और GPQA (एक डॉक्टरेट स्तर के विज्ञान प्रश्नों का सेट जहां विषय विशेषज्ञ भी संघर्ष करते हैं) जैसे कठिन परीक्षणों पर चल गया था। इस बनाओ-संतृप्त करो-बदलो के चक्र को आधुनिक AI अनुसंधान के एक परिभाषित पैटर्न के रूप में माना जाता है।
मानकों के साथ सबसे बड़ा झूठ है दूषितता। यदि मानक प्रश्न ट्रेनिंग डेटा में दिखाई देते हैं — जो अधिकांश इंटरनेट पर ट्रेनिंग करते समय लगभग अनिवार्य होता है — तो मॉडल उत्तरों को याद कर रहा हो सकता है बजाय तर्क करने। कुछ टीमें आगे भी जाती हैं, ज़ाहिर तौर पर या अनजाने में, ट्रेनिंग के दौरान विशेष मानकों के लिए अपनाए गए अनुकूलन के लिए, जिसे कभी-कभी "परीक्षा के लिए शिक्षा" कहा जाता है। यही कारण है कि आपको कभी-कभी एक उल्लेखनीय MMLU स्कोर वाले मॉडल के वास्तविक चैट में खराब परिणाम देखने के लिए देखना पड़ता है। Chatbot Arena जैसे परियोजनाएं पूरी तरह अलग दृष्टिकोण अपनाती हैं: वास्तविक उपयोगकर्ता दो अज्ञात मॉडलों के साथ चैट करते हैं और बेहतर उत्तर के लिए मतदान करते हैं। कोई निश्चित प्रश्न, कोई ज्ञात उत्तर — केवल वास्तविक कार्यों पर मनुष्य की पसंद। कुछ मॉडलों के लिए यह पारंपरिक मानकों के साथ असामान्य रूप से कम संबंधित होता है, जो आपको बताता है कि वे मानक वास्तव में क्या माप रहे हैं।
एक और छोटा सा समस्या भी है: मानक उन चीजों को मापते हैं जो आसानी से मापे जा सकते हैं, आवश्यक रूप से जो महत्वपूर्ण होते हैं। तथ्य याद करना और बहुविकल्पीय तर्क ऑटोमेटिक रूप से स्कोर करना आसान है। उपयोगीता, नुकसान, जब कहना जाने के बारे में जानना और लंबे समय तक एक चैट के दौरान संगति बनाए रखना बहुत कठिन है। इसलिए गंभीर अभ्यासकर्ता अपने उपयोग मामलों पर गुणात्मक परीक्षण के साथ एक मानकों के बर्तन के साथ देखते हैं। एक मॉडल जो MMLU पर 2% कम स्