Recuperación: Definición y significado — Wiki de IA

El proceso de encontrar documentos, pasajes o datos relevantes de una colección grande en respuesta a una consulta. En IA, la recuperación es la "R" en RAG — el paso donde se obtiene contexto relevante antes de dárselo a un modelo de lenguaje. La recuperación puede usar coincidencia de palabras clave (BM25), similitud semántica (embeddings) o enfoques híbridos que combinan ambos.

Por qué importa

La recuperación es lo que hace prácticos a los LLMs para aplicaciones del mundo real. El conocimiento interno de un modelo es estático, incompleto y a veces erróneo. La recuperación le da acceso a información actual, precisa y específica del dominio en tiempo de inferencia. La calidad de tu pipeline de recuperación determina directamente la calidad de tu sistema RAG — el mejor LLM no puede producir buenas respuestas con mal contexto.

En profundidad

La recuperación tradicional (BM25, TF-IDF) hace coincidir palabras clave de la consulta con palabras clave del documento, ponderadas por frecuencia e importancia. Es rápida, interpretable y excelente para coincidencias exactas. La recuperación semántica codifica consultas y documentos como embeddings y encuentra los vecinos más cercanos en el espacio vectorial. Maneja paráfrasis y similitud conceptual pero puede perder coincidencias exactas de palabras clave. La recuperación híbrida combina ambas, típicamente usando fusión de ranking recíproco para fusionar resultados.

Estrategia de Fragmentación

Para RAG, los documentos deben dividirse en fragmentos antes de convertirlos en embeddings. El tamaño del fragmento es una decisión de diseño crítica: muy pequeño y pierdes contexto, muy grande y diluyes la información relevante con ruido. Las estrategias comunes incluyen fragmentos de tamaño fijo con superposición, división a nivel de oración, división a nivel de párrafo y división recursiva que respeta la estructura del documento (encabezados, secciones). El enfoque óptimo depende de tus documentos y consultas.

Reranking

Un patrón común: recuperar un conjunto amplio de candidatos (digamos 50) usando recuperación rápida, luego reordenarlos usando un modelo más preciso (pero más lento). Los rerankers de cross-encoder (como Cohere Rerank o BGE-Reranker) procesan pares consulta-documento juntos, produciendo puntuaciones de relevancia más precisas que la similitud de embeddings sola. Este pipeline de dos etapas equilibra velocidad (recuperación inicial rápida) con precisión (reordenamiento preciso de los mejores candidatos).

Recuperación

Por qué importa

En profundidad

Estrategia de Fragmentación

Reranking

Conceptos relacionados