Zubnet AIAprenderWiki › Evaluación humana
Fundamentos

Evaluación humana

También conocido como: Human Eval, Evaluación manual
Evaluar la calidad de la salida de IA haciendo que humanos la juzguen directamente. Los humanos evalúan la fluidez, precisión, utilidad, seguridad y si la salida realmente cumple con la solicitud. A pesar de ser costosa y lenta, la evaluación humana sigue siendo el estándar de oro porque las métricas automatizadas a menudo pasan por alto lo que realmente importa a los usuarios.

Por qué importa

Cada métrica automatizada es un proxy del juicio humano, y cada proxy tiene puntos ciegos. BLEU no puede detectar errores factuales. La perplejidad no puede medir la utilidad. Incluso los enfoques de LLM-como-juez heredan sesgos (prefiriendo respuestas verbosas, por ejemplo). Cuando hay mucho en juego — lanzar un producto, comparar versiones de modelos, evaluar seguridad — la evaluación humana es irremplazable.

En profundidad

La evaluación humana viene en varios formatos: calificación absoluta (puntúa esta respuesta de 1 a 5 en utilidad), comparación por pares (¿cuál de estas dos respuestas es mejor?) y evaluación específica de tarea (¿el modelo extrajo correctamente todas las entidades de este documento?). La comparación por pares es generalmente más confiable que la calificación absoluta porque los humanos son mejores comparando que puntuando — por eso Chatbot Arena usa votación por pares.

El problema del costo

La evaluación humana es costosa: anotadores calificados, directrices claras, control de calidad y significancia estadística requieren tiempo y dinero. Evaluar un modelo a través de diversas tareas podría necesitar miles de juicios humanos. Por eso existen las métricas automatizadas — son gratuitas e instantáneas. El enfoque práctico es usar métricas automatizadas para iteración rápida durante el desarrollo y evaluación humana para decisiones importantes (lanzamiento, pruebas A/B, auditorías de seguridad).

LLM como juez

Un punto intermedio: usar un LLM fuerte para evaluar las salidas de un modelo más débil. Esto es más barato que la evaluación humana y a menudo se correlaciona bien con los juicios humanos. Pero tiene sesgos conocidos: los jueces LLM tienden a preferir respuestas más largas, más formateadas y respuestas que coinciden con su propio estilo. Usar múltiples modelos juez y calibrar contra calificaciones humanas ayuda, pero el LLM como juez debería complementar, no reemplazar, la evaluación humana para decisiones importantes.

Conceptos relacionados

ESC