Pourquoi vos métriques RAG sont parfaites mais votre agent agit comme un imbécile

Sarah Chen, chercheuse en IR formée à Edinburgh, souligne comment une nouvelle métrique appelée « Bits over Random » (BoR) expose une faille critique dans notre façon de mesurer les systèmes RAG. Alors que les métriques traditionnelles comme Success@K et le rappel se concentrent sur la recherche d'informations pertinentes, BoR mesure si la récupération est réellement sélective ou si elle ne fait que bourrer les fenêtres de contexte avec plus de matériel. La recherche montre que les systèmes peuvent atteindre des taux de succès de 99% tout en performant à peine mieux qu'une sélection aléatoire—un phénomène qui explique pourquoi plusieurs systèmes RAG en production semblent bien paraître sur les tableaux de bord mais produisent un comportement d'agent diffus et peu fiable.

C'est important parce que la plupart des équipes RAG optimisent pour la mauvaise chose. La pensée IR classique—avons-nous trouvé des chunks pertinents, le rappel s'est-il amélioré—fonctionne bien pour les moteurs de recherche où les humains filtrent les résultats. Mais les agents LLM doivent traiter tout ce qu'on leur donne, rendant la pollution contextuelle un vrai tueur de performance. Quand tu augmentes le rappel en récupérant plus de chunks, tu traînes souvent du matériel faiblement pertinent qui dilue l'attention du modèle et dégrade la qualité du raisonnement.

Ce qui est particulièrement frappant, c'est comment cette recherche valide ce que plusieurs praticiens ont ressenti mais n'arrivaient pas à articuler : la récupération qui semble excellente sur papier peut se comporter comme du bruit en production. La métrique BoR fournit un cadre mathématique pour quelque chose que les développeurs ont débogué par intuition—que plus de contexte n'est pas toujours du meilleur contexte.

Pour les développeurs, cette recherche suggère de repenser votre stack d'évaluation. Au lieu de seulement mesurer si vous avez trouvé de l'information pertinente, commencez à mesurer combien de matériel non pertinent vient avec. Considérez la sélectivité de récupération comme une métrique de première classe aux côtés des mesures de rappel traditionnelles. Vos agents vous remercieront avec un comportement plus focalisé et fiable—même si vos chiffres de tableau de bord semblent moins impressionnants.

Pourquoi vos métriques RAG sont parfaites mais votre agent agit comme un imbécile

Plus de nouvelles