Sarah Chen, pesquisadora de IR treinada em Edinburgh, destaca como uma nova métrica chamada "Bits over Random" (BoR) expõe uma falha crítica em como medimos sistemas RAG. Enquanto métricas tradicionais como Success@K e recall focam em encontrar informação relevante, BoR mede se a recuperação é realmente seletiva ou apenas enchendo janelas de contexto com mais material. A pesquisa mostra que sistemas podem alcançar taxas de sucesso de 99% enquanto performam mal melhor que seleção aleatória—um fenômeno que explica por que muitos sistemas RAG em produção parecem bons nos dashboards mas produzem comportamento de agente difuso e não confiável.
Isso importa porque a maioria das equipes RAG estão otimizando pela coisa errada. O pensamento clássico de IR—encontramos chunks relevantes, o recall melhorou—funciona bem para motores de busca onde humanos filtram resultados. Mas agentes LLM devem processar tudo que você dá para eles, tornando a poluição de contexto um verdadeiro matador de performance. Quando você aumenta o recall recuperando mais chunks, você frequentemente arrasta junto material fracamente relevante que dilui a atenção do modelo e degrada a qualidade do raciocínio.
O que é particularmente impressionante é como esta pesquisa valida o que muitos praticantes sentiram mas não conseguiam articular: recuperação que parece excelente no papel pode se comportar como ruído em produção. A métrica BoR fornece uma estrutura matemática para algo que desenvolvedores têm debugado através de intuição—que mais contexto nem sempre é melhor contexto.
Para desenvolvedores, esta pesquisa sugere repensar seu stack de avaliação. Em vez de apenas medir se você encontrou informação relevante, comece a medir quanto material irrelevante vem junto. Considere seletividade de recuperação como uma métrica de primeira classe ao lado de medidas tradicionais de recall. Seus agentes vão agradecer com comportamento mais focado e confiável—mesmo que seus números do dashboard pareçam menos impressionantes.
