La recuperación tradicional (BM25, TF-IDF) hace coincidir palabras clave de la consulta con palabras clave del documento, ponderadas por frecuencia e importancia. Es rápida, interpretable y excelente para coincidencias exactas. La recuperación semántica codifica consultas y documentos como embeddings y encuentra los vecinos más cercanos en el espacio vectorial. Maneja paráfrasis y similitud conceptual pero puede perder coincidencias exactas de palabras clave. La recuperación híbrida combina ambas, típicamente usando fusión de ranking recíproco para fusionar resultados.
Para RAG, los documentos deben dividirse en fragmentos antes de convertirlos en embeddings. El tamaño del fragmento es una decisión de diseño crítica: muy pequeño y pierdes contexto, muy grande y diluyes la información relevante con ruido. Las estrategias comunes incluyen fragmentos de tamaño fijo con superposición, división a nivel de oración, división a nivel de párrafo y división recursiva que respeta la estructura del documento (encabezados, secciones). El enfoque óptimo depende de tus documentos y consultas.
Un patrón común: recuperar un conjunto amplio de candidatos (digamos 50) usando recuperación rápida, luego reordenarlos usando un modelo más preciso (pero más lento). Los rerankers de cross-encoder (como Cohere Rerank o BGE-Reranker) procesan pares consulta-documento juntos, produciendo puntuaciones de relevancia más precisas que la similitud de embeddings sola. Este pipeline de dos etapas equilibra velocidad (recuperación inicial rápida) con precisión (reordenamiento preciso de los mejores candidatos).