Pratik R a publié cette semaine sur Towards Data Science un harnais d'évaluation à 12 métriques pour agents IA en production, tiré de ce que l'auteur décrit comme plus de 100 déploiements entreprise. C'est le playbook d'un praticien plutôt qu'un standard canonique — et c'est justement pourquoi ça vaut la peine de le sortir : les seuils sont assez concrets pour être levés, et le cadrage des modes d'échec nomme des catégories que la plupart des suites de benchmark esquivent encore. Le harnais est regroupé en quatre : retrieval, generation, comportement d'agent, et coût/latence de production. L'histoire d'origine est plus honnête que la moyenne : un compliance officer d'un client en santé a demandé « comment savez-vous que votre agent n'hallucine pas des symptômes de patient » et l'équipe avait des tests unitaires, des tests d'intégration, et un modèle qui performait magnifiquement sur le dataset démo — mais aucun moyen de mesurer le taux d'hallucination, la fidélité au contexte ou la précision de sélection d'outils sur le trafic en direct.
Les seuils concrets sont la partie à copier. Retrieval (4 métriques) : context relevance au-dessus de 0,85 sur top-10 chunks, context recall au-dessus de 0,90 sur les requêtes benchmark labelisées, context precision au-dessus de 0,80, latence de retrieval sous 200ms en p95. Generation (3) : answer faithfulness au-dessus de 0,95 par rapport au contexte récupéré, answer relevance au-dessus de 0,90, taux d'hallucination sous 2 %. Agent (3) : précision de sélection d'outils au-dessus de 0,92, succès d'exécution d'outils au-dessus de 0,98, cohérence multi-étapes au-dessus de 0,85. Production (2) : coût sous 0,05 $ par requête en typique, latence p99 end-to-end sous 3 secondes. La plupart sont notées par un évaluateur LLM-as-judge — c'est le caveat porteur de l'article. LLM-as-judge a des problèmes de fiabilité connus sur les métriques qui comptent le plus, surtout la détection d'hallucination où le modèle juge et le modèle agent peuvent partager les mêmes angles morts, et la fidélité de réponse où le juge peut noter comme fidèle quelque chose qu'un expert du domaine ne noterait pas. Le framework doit être couplé à des spot-checks humains aux limites des seuils, pas juste suivi aveuglément.
La lecture écosystémique tombe contre le vide éditorial dans l'évaluation d'agents. Les labos frontières publient sur des benchmarks académiques saturés (HELM, AgentBench, MMLU, GAIA) qui testent la capacité mais pas la déployabilité ; les équipes de production construisent silencieusement des harnais maison depuis deux ans sans partager à quoi ils ressemblent. La pièce de Pratik R est une divulgation rare de la structure et des seuils d'un véritable harnais de production, même si tu discountes la prétention « 100+ déploiements ». Les trois patterns d'échec qu'il nomme — « on ajoutera l'évaluation après le MVP », « la précision suffit », et « les spot-checks manuels c'est correct » — correspondent à ce que chaque équipe qui bâtit des agents reconnaît de sa propre expérience. Le seuil de taux d'hallucination à 2 % est particulièrement porteur, parce que la plupart des benchmarks publics acceptent implicitement des taux beaucoup plus hauts en ne rapportant que l'accuracy ; pour un agent qui répond à des clients ou pilote des workflows régulés, 2 % est la barre où expédier devient défendable.
Pour les builders : lève d'abord la structure en quatre catégories (retrieval, generation, agent, production) — le regroupement est solide indépendamment de la provenance. Lève les seuils comme points de départ, puis calibre à ton domaine (la santé a besoin d'hallucination proche de 0, le support client peut tolérer 3-5 % si l'agent escalade). Traite LLM-as-judge comme le signal le moins cher et couple-le avec une revue humaine périodique des cas limites — l'article admet que la revue manuelle casse à 10K requêtes/jour mais ne traite pas pleinement le fait que LLM-as-judge peut se tromper avec confiance sur exactement les cas qu'une revue manuelle attraperait. Les cibles de coût et de latence sont la moitié ennuyeuse du framework, et c'est là que la plupart des échecs de production vivent en réalité : un agent qui hallucine 1 % du temps mais coûte 0,50 $ par requête ne sera pas expédié non plus. La pièce de Pratik R est au lien TDS ; traite-la comme une référence de départ, pas comme un standard.
