बेंचमार्क: परिभाषा और अर्थ — AI विकी

एक मानक परीक्षण जो AI मॉडलों के मूल्यांकन और तुलना के लिए उपयोग किया जाता है। बेंचमार्क विशिष्ट क्षमताओं — तर्क (ARC), गणित (GSM8K), कोडिंग (HumanEval), सामान्य ज्ञान (MMLU) — को मापते हैं और मॉडलों के बीच तुलना करने वाले स्कोर उत्पन्न करते हैं।

यह क्यों मायने रखता है

बेंचमार्क्स उद्योग द्वारा स्कोर करने के तरीका हैं, लेकिन वे अपूर्ण हैं। मॉडल प्रशिक्षित किए जा सकते हैं बेंचमार्क्स में शीर्ष पर रहे बिना सच्चे तौर पर बेहतर न होने के। वास्तविक दुनिया में प्रदर्शन अक्सर एक अलग कहानी बताता है। उन्हें संकेत के रूप में देखें, सच्चाई के रूप में नहीं।

गहन अध्ययन

अधिकांश AI मानक एक सरल सूत्र का पालन करते हैं: मॉडल को ज्ञात सही उत्तरों वाले प्रश्नों या कार्यों का एक सेट दें, अनुमान चलाएं, और एक सटीकता स्कोर की गणना करें। उदाहरण के लिए, MMLU एक बहुविकल्पीय परीक्षा है जो अमूर्त बीजगणित से विश्व धर्म तक 57 विषयों को शामिल करती है। HumanEval मॉडल से पायथन फ़ंक्शन लिखने के लिए कहता है जो यूनिट टेस्ट पास करता है। GSM8K एक ग्रेड स्कूल गणित शब्द समस्या प्रस्तुत करता है। मानक स्कोर मॉडल द्वारा सही किए गए प्रतिशत होता है, कभी-कभी वजह से या श्रेणी द्वारा विभाजित। अंतर्निहित रूप से, कई मानक मॉडलों का मूल्यांकन शून्य-शॉट या कुछ-शॉट सेटिंग में करते हैं — अर्थात, मॉडल को उत्तर देने से पहले कोई उदाहरण या केवल कुछ दिया जाता है। यह वास्तविक क्षमता के बजाय एक विशिष्ट फॉर्मेट पर पैटर्न मैचिंग के बजाय मापने के लिए होता है।

चलते लक्ष्य खंभे

AI में मानकों का इतिहास एक ऐसी कहानी है जहां लक्ष्य खंभे लोगों के अपेक्षा से तेजी से चलते रहते हैं। 2018 में जारी GLUE भाषा समझ के एक कठिन परीक्षण होना चाहिए था। एक वर्ष में मॉडल मनुष्य के मानकों को पार कर गए, इसलिए 2019 में SuperGLUE आया। वह भी गिर गया। MMLU (2020) को लंबे समय तक टिके रहने के लिए डिज़ाइन किया गया था, और यह कर गया — कुछ समय के लिए। 2024 के अंत तक, सीमा वाले मॉडल MMLU पर 90% से अधिक स्कोर कर रहे थे, और समुदाय पहले ही MMLU-Pro और GPQA (एक डॉक्टरेट स्तर के विज्ञान प्रश्नों का सेट जहां विषय विशेषज्ञ भी संघर्ष करते हैं) जैसे कठिन परीक्षणों पर चल गया था। इस बनाओ-संतृप्त करो-बदलो के चक्र को आधुनिक AI अनुसंधान के एक परिभाषित पैटर्न के रूप में माना जाता है।

मानकों की दूषितता समस्या

मानकों के साथ सबसे बड़ा झूठ है दूषितता। यदि मानक प्रश्न ट्रेनिंग डेटा में दिखाई देते हैं — जो अधिकांश इंटरनेट पर ट्रेनिंग करते समय लगभग अनिवार्य होता है — तो मॉडल उत्तरों को याद कर रहा हो सकता है बजाय तर्क करने। कुछ टीमें आगे भी जाती हैं, ज़ाहिर तौर पर या अनजाने में, ट्रेनिंग के दौरान विशेष मानकों के लिए अपनाए गए अनुकूलन के लिए, जिसे कभी-कभी "परीक्षा के लिए शिक्षा" कहा जाता है। यही कारण है कि आपको कभी-कभी एक उल्लेखनीय MMLU स्कोर वाले मॉडल के वास्तविक चैट में खराब परिणाम देखने के लिए देखना पड़ता है। Chatbot Arena जैसे परियोजनाएं पूरी तरह अलग दृष्टिकोण अपनाती हैं: वास्तविक उपयोगकर्ता दो अज्ञात मॉडलों के साथ चैट करते हैं और बेहतर उत्तर के लिए मतदान करते हैं। कोई निश्चित प्रश्न, कोई ज्ञात उत्तर — केवल वास्तविक कार्यों पर मनुष्य की पसंद। कुछ मॉडलों के लिए यह पारंपरिक मानकों के साथ असामान्य रूप से कम संबंधित होता है, जो आपको बताता है कि वे मानक वास्तव में क्या माप रहे हैं।

संख्याएं क्या छोड़ती हैं

एक और छोटा सा समस्या भी है: मानक उन चीजों को मापते हैं जो आसानी से मापे जा सकते हैं, आवश्यक रूप से जो महत्वपूर्ण होते हैं। तथ्य याद करना और बहुविकल्पीय तर्क ऑटोमेटिक रूप से स्कोर करना आसान है। उपयोगीता, नुकसान, जब कहना जाने के बारे में जानना और लंबे समय तक एक चैट के दौरान संगति बनाए रखना बहुत कठिन है। इसलिए गंभीर अभ्यासकर्ता अपने उपयोग मामलों पर गुणात्मक परीक्षण के साथ एक मानकों के बर्तन के साथ देखते हैं। एक मॉडल जो MMLU पर 2% कम स्

बेंचमार्क

यह क्यों मायने रखता है

गहन अध्ययन

चलते लक्ष्य खंभे

मानकों की दूषितता समस्या

संख्याएं क्या छोड़ती हैं

संबंधित अवधारणाएँ