AI बेंचमार्क: परिभाषा और अर्थ — AI विकी

AI मॉडल क्षमताओं को मापने और तुलना करने के लिए मानकीकृत परीक्षण। MMLU 57 अकादमिक विषयों में ज्ञान का परीक्षण करता है। HumanEval कोड जनरेशन का परीक्षण करता है। ARC वैज्ञानिक तर्क का परीक्षण करता है। HellaSwag सामान्य ज्ञान तर्क का परीक्षण करता है। GSM8K गणित का परीक्षण करता है। बेंचमार्क स्कोर मॉडलों की तुलना के लिए एक सामान्य भाषा प्रदान करते हैं, हालाँकि उनकी महत्वपूर्ण सीमाएँ हैं।

यह क्यों मायने रखता है

बेंचमार्क वह तरीका है जिससे उद्योग स्कोर रखता है। जब Anthropic कहता है कि Claude MMLU पर X% और HumanEval पर Y% स्कोर करता है, तो वे संख्याएँ तभी अर्थ रखती हैं जब आप जानते हैं कि बेंचमार्क क्या परीक्षण करते हैं, उन्हें कैसे स्कोर किया जाता है, और उनकी सीमाएँ क्या हैं। बेंचमार्क को समझने से आपको मार्केटिंग दावों को काटने और मूल्यांकन करने में मदद मिलती है कि कौन सा मॉडल वास्तव में आपके विशिष्ट उपयोग के लिए सबसे अच्छा है।

गहन अध्ययन

प्रमुख बेंचमार्क: MMLU (Massive Multitask Language Understanding) — STEM से मानविकी तक 57 विषयों में 14,042 बहुविकल्पी प्रश्न। HumanEval — Python में function generation का परीक्षण करने वाली 164 कोडिंग समस्याएँ। ARC (AI2 Reasoning Challenge) — तर्क की आवश्यकता वाले विज्ञान परीक्षा प्रश्न। HellaSwag — सामान्य ज्ञान का परीक्षण करने वाला वाक्य पूर्णता। GSM8K — 8,500 प्राथमिक विद्यालय गणित शब्द समस्याएँ। प्रत्येक एक अलग क्षमता का परीक्षण करता है।

बेंचमार्क समस्याग्रस्त क्यों हैं

कई मुद्दे: संदूषण (परीक्षण प्रश्न प्रशिक्षण डेटा में दिखाई देते हैं, स्कोर को बढ़ाते हैं), संतृप्ति (जब सभी मॉडल 95%+ स्कोर करते हैं, बेंचमार्क भेद करना बंद कर देता है), गेमिंग (वास्तव में क्षमता सुधारे बिना बेंचमार्क स्कोर अधिकतम करने के लिए विशेष रूप से प्रशिक्षण), और संकीर्ण कवरेज (बेंचमार्क वह परीक्षण करते हैं जो परीक्षण योग्य है, ज़रूरी नहीं कि जो उपयोगकर्ताओं के लिए मायने रखता है)। MMLU पर 90% स्कोर करने वाला मॉडल वास्तव में उपयोगकर्ता की मदद करने में 80% स्कोर करने वाले से खराब हो सकता है जो निर्देशों का बेहतर पालन करता है।

स्थिर बेंचमार्कों से आगे

क्षेत्र विकसित हो रहा है: Chatbot Arena रियल-टाइम मानव प्राथमिकताओं का उपयोग करता है (संदूषित करना कठिन, हमेशा वर्तमान)। LiveBench बार-बार ताज़ा प्रश्नों का उपयोग करता है। SEAL और अन्य निजी बेंचमार्क परीक्षण डेटा गुप्त रखते हैं। कार्य-विशिष्ट मूल्यांकन (वास्तविक GitHub issue हल करने के लिए SWE-bench, PhD-स्तरीय विज्ञान के लिए GPQA) सामान्य बेंचमार्क से छूटी क्षमताओं का परीक्षण करते हैं। रुझान वास्तविक-दुनिया के उपयोग जैसा दिखने वाले और मानकीकृत परीक्षण से कम दिखने वाले मूल्यांकन की ओर है।

AI बेंचमार्क

यह क्यों मायने रखता है

गहन अध्ययन

बेंचमार्क समस्याग्रस्त क्यों हैं

स्थिर बेंचमार्कों से आगे

संबंधित अवधारणाएँ