La mayoría de pipelines RAG todavía omiten el reranking a pesar de que la técnica resuelve el problema central que tumba los sistemas de producción: la recuperación por bi-encoder devuelve chunks similares, no relevantes. Los cross-encoders como BAAI/bge-reranker-v2-m3 leen queries y documentos juntos en lugar de codificarlos por separado, captando matices como "$500/noche" que contradice "hoteles baratos" que los bi-encoders se pierden por completo. Empresas como Cohere y Pinecone han hecho esto práctica estándar, ofreciendo rerank-v4.0-pro y bge-reranker-v2-m3 como servicios de producción.
El patrón de dos etapas se ha vuelto el enfoque de frontera: lanzar una red amplia con bi-encoders rápidos o BM25 para alto recall, luego rankear con precisión los mejores candidatos con cross-encoders que miden relevancia real. Esto no es teórico—es como los equipos construyendo AI de producción evitan la espiral de alucinación que empieza cuando pasajes incorrectos llegan a tu LLM. Las matemáticas son simples: los bi-encoders comprimen semántica en vectores fijos antes de comparación, descartando señales de interacción que determinan si un documento realmente responde la query.
Múltiples fuentes confirman este cambio hacia arquitecturas multi-query y reranking, con Azure AI Search descomponiendo queries complejas en subqueries paralelas y sistemas empresariales usando agregación de resultados basada en consenso. El patrón funciona porque explota el tradeoff velocidad-precisión: bi-encoders para escala, cross-encoders para precisión.
Si tus resultados RAG están "okay pero no geniales," no persigas mejores modelos de embedding primero. Conecta un reranker como BGE con LangChain's ContextualCompressionRetriever, haz benchmark contra tu pipeline actual, y mira la precisión saltar. La implementación es directa, la ganancia de rendimiento es medible, y omitirlo significa que estás dejando calidad de recuperación sobre la mesa.
