Por qué tus métricas RAG se ven geniales pero tu agente actúa como un tonto

Sarah Chen, investigadora de IR entrenada en Edinburgh, destaca cómo una nueva métrica llamada "Bits over Random" (BoR) expone una falla crítica en cómo medimos los sistemas RAG. Mientras que las métricas tradicionales como Success@K y recall se enfocan en encontrar información relevante, BoR mide si la recuperación es realmente selectiva o solo está rellenando ventanas de contexto con más material. La investigación muestra que los sistemas pueden lograr tasas de éxito del 99% mientras se desempeñan apenas mejor que la selección aleatoria—un fenómeno que explica por qué muchos sistemas RAG en producción se ven bien en los dashboards pero producen comportamiento de agente difuso e inconsistente.

Esto importa porque la mayoría de equipos RAG están optimizando para lo incorrecto. El pensamiento clásico de IR—¿encontramos chunks relevantes?, ¿mejoró el recall?—funciona bien para motores de búsqueda donde los humanos filtran resultados. Pero los agentes LLM deben procesar todo lo que les das, haciendo que la contaminación de contexto sea un verdadero asesino de rendimiento. Cuando aumentas el recall recuperando más chunks, a menudo arrastras material débilmente relevante que diluye la atención del modelo y degrada la calidad del razonamiento.

Lo que es particularmente sorprendente es cómo esta investigación valida lo que muchos practicantes han sentido pero no podían articular: la recuperación que se ve excelente en papel puede comportarse como ruido en producción. La métrica BoR proporciona un marco matemático para algo que los desarrolladores han estado debuggeando por intuición—que más contexto no siempre es mejor contexto.

Para los desarrolladores, esta investigación sugiere repensar tu stack de evaluación. En lugar de solo medir si encontraste información relevante, empieza a medir cuánto material irrelevante viene con ella. Considera la selectividad de recuperación como una métrica de primera clase junto con las medidas tradicionales de recall. Tus agentes te lo agradecerán con comportamiento más enfocado y confiable—incluso si los números de tu dashboard se ven menos impresionantes.

Por qué tus métricas RAG se ven geniales pero tu agente actúa como un tonto

Más noticias