Zubnet AIAprenderWiki › Benchmarks de IA
Fundamentos

Benchmarks de IA

También conocido como: MMLU, HumanEval, ARC, HellaSwag
Pruebas estandarizadas usadas para medir y comparar las capacidades de los modelos de IA. MMLU evalúa conocimiento en 57 materias académicas. HumanEval evalúa la generación de código. ARC evalúa el razonamiento científico. HellaSwag evalúa el razonamiento de sentido común. GSM8K evalúa matemáticas. Las puntuaciones de benchmarks proporcionan un lenguaje común para comparar modelos, aunque tienen limitaciones significativas.

Por qué importa

Los benchmarks son cómo la industria lleva la cuenta. Cuando Anthropic dice que Claude obtiene X% en MMLU y Y% en HumanEval, esos números solo significan algo si sabes qué evalúan los benchmarks, cómo se puntúan y cuáles son sus limitaciones. Entender los benchmarks te ayuda a separar las afirmaciones de marketing y evaluar qué modelo es realmente el mejor para tu caso de uso específico.

En profundidad

Benchmarks clave: MMLU (Massive Multitask Language Understanding) — 14,042 preguntas de opción múltiple en 57 materias desde STEM hasta humanidades. HumanEval — 164 problemas de programación probando generación de funciones en Python. ARC (AI2 Reasoning Challenge) — preguntas de exámenes de ciencia que requieren razonamiento. HellaSwag — completar oraciones evaluando conocimiento de sentido común. GSM8K — 8,500 problemas de matemáticas de nivel escolar. Cada uno evalúa una capacidad diferente.

Por qué los benchmarks son problemáticos

Varios problemas: contaminación (las preguntas del test aparecen en los datos de entrenamiento, inflando las puntuaciones), saturación (cuando todos los modelos obtienen 95%+, el benchmark deja de discriminar), gaming (entrenar específicamente para maximizar puntuaciones de benchmark sin mejorar genuinamente la capacidad) y cobertura limitada (los benchmarks evalúan lo que es evaluable, no necesariamente lo que importa a los usuarios). Un modelo que obtiene 90% en MMLU podría ser peor ayudando realmente a un usuario que uno que obtiene 80% pero sigue mejor las instrucciones.

Más allá de los benchmarks estáticos

El campo está evolucionando: Chatbot Arena usa preferencias humanas en tiempo real (difícil de contaminar, siempre actual). LiveBench usa preguntas actualizadas frecuentemente. SEAL y otros benchmarks privados mantienen los datos de prueba en secreto. Las evaluaciones específicas de tarea (SWE-bench para resolver issues reales de GitHub, GPQA para ciencia a nivel de doctorado) evalúan capacidades que los benchmarks generales no captan. La tendencia es hacia evaluaciones que se parecen más al uso real y menos a exámenes estandarizados.

Conceptos relacionados

ESC