प्रमुख बेंचमार्क: MMLU (Massive Multitask Language Understanding) — STEM से मानविकी तक 57 विषयों में 14,042 बहुविकल्पी प्रश्न। HumanEval — Python में function generation का परीक्षण करने वाली 164 कोडिंग समस्याएँ। ARC (AI2 Reasoning Challenge) — तर्क की आवश्यकता वाले विज्ञान परीक्षा प्रश्न। HellaSwag — सामान्य ज्ञान का परीक्षण करने वाला वाक्य पूर्णता। GSM8K — 8,500 प्राथमिक विद्यालय गणित शब्द समस्याएँ। प्रत्येक एक अलग क्षमता का परीक्षण करता है।
कई मुद्दे: संदूषण (परीक्षण प्रश्न प्रशिक्षण डेटा में दिखाई देते हैं, स्कोर को बढ़ाते हैं), संतृप्ति (जब सभी मॉडल 95%+ स्कोर करते हैं, बेंचमार्क भेद करना बंद कर देता है), गेमिंग (वास्तव में क्षमता सुधारे बिना बेंचमार्क स्कोर अधिकतम करने के लिए विशेष रूप से प्रशिक्षण), और संकीर्ण कवरेज (बेंचमार्क वह परीक्षण करते हैं जो परीक्षण योग्य है, ज़रूरी नहीं कि जो उपयोगकर्ताओं के लिए मायने रखता है)। MMLU पर 90% स्कोर करने वाला मॉडल वास्तव में उपयोगकर्ता की मदद करने में 80% स्कोर करने वाले से खराब हो सकता है जो निर्देशों का बेहतर पालन करता है।
क्षेत्र विकसित हो रहा है: Chatbot Arena रियल-टाइम मानव प्राथमिकताओं का उपयोग करता है (संदूषित करना कठिन, हमेशा वर्तमान)। LiveBench बार-बार ताज़ा प्रश्नों का उपयोग करता है। SEAL और अन्य निजी बेंचमार्क परीक्षण डेटा गुप्त रखते हैं। कार्य-विशिष्ट मूल्यांकन (वास्तविक GitHub issue हल करने के लिए SWE-bench, PhD-स्तरीय विज्ञान के लिए GPQA) सामान्य बेंचमार्क से छूटी क्षमताओं का परीक्षण करते हैं। रुझान वास्तविक-दुनिया के उपयोग जैसा दिखने वाले और मानकीकृत परीक्षण से कम दिखने वाले मूल्यांकन की ओर है।