Benchmarks clave: MMLU (Massive Multitask Language Understanding) — 14,042 preguntas de opción múltiple en 57 materias desde STEM hasta humanidades. HumanEval — 164 problemas de programación probando generación de funciones en Python. ARC (AI2 Reasoning Challenge) — preguntas de exámenes de ciencia que requieren razonamiento. HellaSwag — completar oraciones evaluando conocimiento de sentido común. GSM8K — 8,500 problemas de matemáticas de nivel escolar. Cada uno evalúa una capacidad diferente.
Varios problemas: contaminación (las preguntas del test aparecen en los datos de entrenamiento, inflando las puntuaciones), saturación (cuando todos los modelos obtienen 95%+, el benchmark deja de discriminar), gaming (entrenar específicamente para maximizar puntuaciones de benchmark sin mejorar genuinamente la capacidad) y cobertura limitada (los benchmarks evalúan lo que es evaluable, no necesariamente lo que importa a los usuarios). Un modelo que obtiene 90% en MMLU podría ser peor ayudando realmente a un usuario que uno que obtiene 80% pero sigue mejor las instrucciones.
El campo está evolucionando: Chatbot Arena usa preferencias humanas en tiempo real (difícil de contaminar, siempre actual). LiveBench usa preguntas actualizadas frecuentemente. SEAL y otros benchmarks privados mantienen los datos de prueba en secreto. Las evaluaciones específicas de tarea (SWE-bench para resolver issues reales de GitHub, GPQA para ciencia a nivel de doctorado) evalúan capacidades que los benchmarks generales no captan. La tendencia es hacia evaluaciones que se parecen más al uso real y menos a exámenes estandarizados.