La plupart des pipelines RAG ignorent encore le reranking malgré que cette technique règle le problème central qui plante les systèmes en production : la récupération par bi-encoder retourne des chunks similaires, pas pertinents. Les cross-encoders comme BAAI/bge-reranker-v2-m3 lisent les requêtes et documents ensemble au lieu de les encoder séparément, captant des nuances comme « 500$/nuit » qui contredit « hôtels pas chers » que les bi-encoders ratent complètement. Des compagnies comme Cohere et Pinecone ont fait de ça une pratique standard, offrant rerank-v4.0-pro et bge-reranker-v2-m3 comme services de production.

Le pattern à deux étapes est devenu l'approche de pointe : ratisser large avec des bi-encoders rapides ou BM25 pour un rappel élevé, puis classer avec précision les top candidats avec des cross-encoders qui mesurent la pertinence réelle. C'est pas théorique—c'est comme ça que les équipes qui buildent de l'AI en production évitent la spirale d'hallucination qui commence quand de mauvais passages atteignent votre LLM. Les maths sont simples : les bi-encoders compressent la sémantique en vecteurs fixes avant comparaison, jetant les signaux d'interaction qui déterminent si un document répond vraiment à la requête.

Plusieurs sources confirment ce shift vers des architectures multi-query et reranking, avec Azure AI Search qui décompose les requêtes complexes en sous-requêtes parallèles et les systèmes d'entreprise utilisant l'agrégation de résultats basée sur consensus. Le pattern fonctionne parce qu'il exploite le tradeoff vitesse-précision : bi-encoders pour l'échelle, cross-encoders pour la précision.

Si vos résultats RAG sont « corrects mais pas géniaux », ne courez pas après de meilleurs modèles d'embedding en premier. Branchez un reranker comme BGE avec LangChain's ContextualCompressionRetriever, benchmarkez contre votre pipeline actuel, et regardez la précision bondir. L'implémentation est straightforward, le gain de performance est mesurable, et l'ignorer signifie que vous laissez de la qualité de récupération sur la table.