A avaliação humana vem em vários sabores: classificação absoluta (avalie esta resposta de 1–5 em utilidade), comparação pairwise (qual dessas duas respostas é melhor?) e avaliação específica de tarefa (o modelo extraiu corretamente todas as entidades deste documento?). A comparação pairwise é geralmente mais confiável que a classificação absoluta porque humanos são melhores em comparar do que em pontuar — é por isso que o Chatbot Arena usa votação pairwise.
Avaliação humana é cara: anotadores qualificados, diretrizes claras, controle de qualidade e significância estatística requerem tempo e dinheiro. Avaliar um modelo em tarefas diversas pode precisar de milhares de julgamentos humanos. É por isso que métricas automatizadas existem — são gratuitas e instantâneas. A abordagem prática é usar métricas automatizadas para iteração rápida durante o desenvolvimento e avaliação humana para decisões de marco (lançamento, testes A/B, auditorias de segurança).
Um meio-termo: usar um LLM forte para avaliar as saídas de um modelo mais fraco. Isso é mais barato que avaliação humana e frequentemente correlaciona bem com julgamentos humanos. Mas tem vieses conhecidos: juízes LLM tendem a preferir respostas mais longas, respostas mais formatadas e respostas que correspondem ao seu próprio estilo. Usar múltiplos modelos juízes e calibrar contra avaliações humanas ajuda, mas LLM-como-juiz deve complementar, não substituir, avaliação humana para decisões importantes.