Zubnet AIApprendreWiki › Retrieval
Fondamentaux

Retrieval

Information Retrieval, IR
Le processus de trouver des documents, passages ou données pertinentes à partir d'une grande collection en réponse à une requête. En IA, le retrieval est le « R » dans RAG — l'étape où le contexte pertinent est récupéré avant d'être donné à un modèle de langage. Le retrieval peut utiliser du matching par mots-clés (BM25), de la similarité sémantique (embeddings), ou des approches hybrides combinant les deux.

Pourquoi c'est important

Le retrieval est ce qui rend les LLM pratiques pour des applications du monde réel. La connaissance interne d'un modèle est statique, incomplète et parfois fausse. Le retrieval lui donne accès à de l'information actuelle, exacte, spécifique au domaine au moment de l'inférence. La qualité de ton pipeline de retrieval détermine directement la qualité de ton système RAG — le meilleur LLM ne peut pas produire de bonnes réponses à partir d'un mauvais contexte.

Deep Dive

Traditional retrieval (BM25, TF-IDF) matches query keywords against document keywords, weighted by frequency and importance. It's fast, interpretable, and excellent for exact matches. Semantic retrieval encodes queries and documents as embeddings and finds nearest neighbors in vector space. It handles paraphrase and conceptual similarity but can miss exact keyword matches. Hybrid retrieval combines both, typically using reciprocal rank fusion to merge results.

Chunking Strategy

For RAG, documents must be split into chunks before embedding. Chunk size is a critical design decision: too small and you lose context, too large and you dilute relevant information with noise. Common strategies include fixed-size chunks with overlap, sentence-level splitting, paragraph-level splitting, and recursive splitting that respects document structure (headers, sections). The optimal approach depends on your documents and queries.

Reranking

A common pattern: retrieve a broad set of candidates (say 50) using fast retrieval, then rerank them using a more accurate (but slower) model. Cross-encoder rerankers (like Cohere Rerank or BGE-Reranker) process query-document pairs together, producing more accurate relevance scores than embedding similarity alone. This two-stage pipeline balances speed (fast initial retrieval) with accuracy (precise reranking of the top candidates).

Concepts liés

← Tous les termes
← Residual Connection Reward Model →