Zubnet AIAprenderWiki › Benchmark
Entrenamiento

Benchmark

También conocido como: Prueba de referencia
Una prueba estandarizada usada para evaluar y comparar modelos de IA. Los benchmarks miden capacidades específicas — razonamiento (ARC), matemáticas (GSM8K), programación (HumanEval), conocimiento general (MMLU) — y producen puntajes que se pueden comparar entre modelos.

Por qué importa

Los benchmarks son cómo la industria lleva el marcador, pero son imperfectos. Los modelos pueden ser entrenados para dominar benchmarks sin ser genuinamente mejores. El rendimiento en el mundo real a menudo cuenta una historia diferente. Trátalos como señales, no como verdad.

En profundidad

La mayoría de los benchmarks de IA siguen una fórmula simple: dale al modelo un conjunto de preguntas o tareas con respuestas correctas conocidas, ejecuta la inferencia y calcula un puntaje de precisión. MMLU, por ejemplo, es esencialmente un examen de opción múltiple que abarca 57 materias desde álgebra abstracta hasta religiones del mundo. HumanEval pide al modelo que escriba funciones en Python que pasen tests unitarios. GSM8K presenta problemas matemáticos de nivel primaria. El puntaje del benchmark es el porcentaje que el modelo acierta, a veces ponderado, a veces desglosado por categoría. Internamente, muchos benchmarks evalúan modelos en un entorno zero-shot o few-shot — lo que significa que el modelo no recibe ejemplos, o solo un puñado, antes de responder. Se supone que esto mide capacidad genuina en lugar de coincidencia de patrones en un formato específico.

Las metas que se mueven

La historia de los benchmarks en IA es una historia de metas que se mueven más rápido de lo que cualquiera esperaba. GLUE, lanzado en 2018, se suponía que era una prueba difícil de comprensión del lenguaje. Los modelos superaron las líneas base humanas en menos de un año, así que llegó SuperGLUE en 2019. Ese también cayó. MMLU (2020) fue diseñado para durar más, y lo hizo — por un tiempo. Para finales de 2024, los modelos de frontera estaban puntuando por encima del 90% en él, y la comunidad ya había pasado a pruebas más difíciles como MMLU-Pro y GPQA (un conjunto de preguntas de ciencia a nivel doctorado donde incluso los expertos del dominio tienen dificultades). Este ciclo de crear-saturar-reemplazar es uno de los patrones que definen la investigación moderna en IA.

El problema de la contaminación

El mayor problema con los benchmarks es la contaminación. Si las preguntas del benchmark aparecen en los datos de entrenamiento — lo cual es casi inevitable cuando entrenas con la mayor parte de internet — el modelo podría estar recordando respuestas en lugar de razonando. Algunos equipos van más lejos, optimizando deliberada o accidentalmente para benchmarks específicos durante el entrenamiento, una práctica a veces llamada "enseñar para el examen". Por eso a veces ves un modelo con puntajes impresionantes en MMLU que produce resultados mediocres en conversación real. Proyectos como Chatbot Arena toman un enfoque completamente diferente: usuarios reales chatean con dos modelos anónimos y votan cuál respuesta es mejor. Sin preguntas fijas, sin respuestas conocidas — solo preferencia humana en tareas reales. Correlaciona sorprendentemente poco con los benchmarks tradicionales para algunos modelos, lo que te dice algo importante sobre qué están midiendo realmente esos benchmarks.

Lo que los números no capturan

También hay un problema más sutil: los benchmarks miden lo que es fácil de medir, no necesariamente lo que importa. El recuerdo factual y el razonamiento de opción múltiple son directos de puntuar automáticamente. Cualidades como la utilidad, el matiz, saber cuándo decir "no sé" y mantener coherencia a lo largo de una conversación larga son mucho más difíciles de cuantificar. Por eso los profesionales serios miran una canasta de benchmarks junto con pruebas cualitativas en sus propios casos de uso. Un modelo que puntúa 2% más bajo en MMLU pero maneja tu dominio específico notablemente mejor es el mejor modelo — para ti. Los números son un punto de partida para la comparación, no un veredicto final.

Conceptos relacionados

← Todos los términos
← Automatización Sesgo →
ESC