Évaluation humaine : Définition et signification — Wiki IA

Évaluer la qualité de la sortie de l'IA en faisant juger directement par des humains. Les humains évaluent la fluidité, la précision, l'utilité, la sécurité, et si la sortie répond vraiment à la demande. Malgré son coût et sa lenteur, l'évaluation humaine reste l'étalon-or parce que les métriques automatisées passent souvent à côté de ce qui compte vraiment pour les utilisateurs.

Pourquoi c'est important

Chaque métrique automatisée est un proxy du jugement humain, et chaque proxy a ses angles morts. BLEU ne détecte pas les erreurs factuelles. La perplexité ne mesure pas l'utilité. Même les approches LLM-comme-juge héritent de biais (préférer les réponses verbeuses, par exemple). Quand les enjeux sont élevés — lancer un produit, comparer des versions de modèles, évaluer la sécurité — l'évaluation humaine est irremplaçable.

En profondeur

L'évaluation humaine existe en plusieurs variantes : notation absolue (note cette réponse de 1 à 5 en utilité), comparaison par paires (laquelle de ces deux réponses est meilleure ?) et évaluation spécifique à la tâche (le modèle a-t-il correctement extrait toutes les entités de ce document ?). La comparaison par paires est généralement plus fiable que la notation absolue parce que les humains sont meilleurs pour comparer que pour noter — c'est pourquoi Chatbot Arena utilise le vote par paires.

Le problème du coût

L'évaluation humaine est chère : des annotateurs qualifiés, des consignes claires, du contrôle qualité et de la significativité statistique demandent du temps et de l'argent. Évaluer un modèle sur des tâches diverses peut nécessiter des milliers de jugements humains. C'est pourquoi les métriques automatisées existent — elles sont gratuites et instantanées. L'approche pratique est d'utiliser les métriques automatisées pour l'itération rapide pendant le développement et l'évaluation humaine pour les décisions jalons (mise en production, tests A/B, audits de sécurité).

LLM-comme-juge

Un compromis : utiliser un LLM puissant pour évaluer les sorties d'un modèle plus faible. C'est moins cher que l'évaluation humaine et corrèle souvent bien avec les jugements humains. Mais ça a des biais connus : les LLM juges tendent à préférer les réponses plus longues, plus formatées, et les réponses qui correspondent à leur propre style. Utiliser plusieurs modèles juges et calibrer contre des évaluations humaines aide, mais le LLM-comme-juge devrait compléter, pas remplacer, l'évaluation humaine pour les décisions importantes.

Évaluation humaine

Pourquoi c'est important

En profondeur

Le problème du coût

LLM-comme-juge

Concepts connexes