L'évaluation humaine existe en plusieurs variantes : notation absolue (note cette réponse de 1 à 5 en utilité), comparaison par paires (laquelle de ces deux réponses est meilleure ?) et évaluation spécifique à la tâche (le modèle a-t-il correctement extrait toutes les entités de ce document ?). La comparaison par paires est généralement plus fiable que la notation absolue parce que les humains sont meilleurs pour comparer que pour noter — c'est pourquoi Chatbot Arena utilise le vote par paires.
L'évaluation humaine est chère : des annotateurs qualifiés, des consignes claires, du contrôle qualité et de la significativité statistique demandent du temps et de l'argent. Évaluer un modèle sur des tâches diverses peut nécessiter des milliers de jugements humains. C'est pourquoi les métriques automatisées existent — elles sont gratuites et instantanées. L'approche pratique est d'utiliser les métriques automatisées pour l'itération rapide pendant le développement et l'évaluation humaine pour les décisions jalons (mise en production, tests A/B, audits de sécurité).
Un compromis : utiliser un LLM puissant pour évaluer les sorties d'un modèle plus faible. C'est moins cher que l'évaluation humaine et corrèle souvent bien avec les jugements humains. Mais ça a des biais connus : les LLM juges tendent à préférer les réponses plus longues, plus formatées, et les réponses qui correspondent à leur propre style. Utiliser plusieurs modèles juges et calibrer contre des évaluations humaines aide, mais le LLM-comme-juge devrait compléter, pas remplacer, l'évaluation humaine pour les décisions importantes.