La evaluación humana viene en varios formatos: calificación absoluta (puntúa esta respuesta de 1 a 5 en utilidad), comparación por pares (¿cuál de estas dos respuestas es mejor?) y evaluación específica de tarea (¿el modelo extrajo correctamente todas las entidades de este documento?). La comparación por pares es generalmente más confiable que la calificación absoluta porque los humanos son mejores comparando que puntuando — por eso Chatbot Arena usa votación por pares.
La evaluación humana es costosa: anotadores calificados, directrices claras, control de calidad y significancia estadística requieren tiempo y dinero. Evaluar un modelo a través de diversas tareas podría necesitar miles de juicios humanos. Por eso existen las métricas automatizadas — son gratuitas e instantáneas. El enfoque práctico es usar métricas automatizadas para iteración rápida durante el desarrollo y evaluación humana para decisiones importantes (lanzamiento, pruebas A/B, auditorías de seguridad).
Un punto intermedio: usar un LLM fuerte para evaluar las salidas de un modelo más débil. Esto es más barato que la evaluación humana y a menudo se correlaciona bien con los juicios humanos. Pero tiene sesgos conocidos: los jueces LLM tienden a preferir respuestas más largas, más formateadas y respuestas que coinciden con su propio estilo. Usar múltiples modelos juez y calibrar contra calificaciones humanas ayuda, pero el LLM como juez debería complementar, no reemplazar, la evaluación humana para decisiones importantes.