Búsqueda Semántica: Definición y significado — Wiki de IA

Una búsqueda que encuentra resultados basándose en el significado en lugar de coincidencias exactas de palabras clave. En vez de buscar documentos que contengan la palabra "arreglar", la búsqueda semántica encuentra documentos sobre "reparar", "resolver", "parchear" y "depurar" porque significan cosas similares. Funciona convirtiendo el texto en embeddings (vectores numéricos) y encontrando las coincidencias más cercanas en el espacio vectorial.

Por qué importa

La búsqueda semántica es la razón por la que la búsqueda moderna se siente mágica comparada con la búsqueda por palabras clave. Impulsa los sistemas RAG, la búsqueda en documentación, el descubrimiento de productos en e-commerce y el enrutamiento de tickets de soporte. Si estás construyendo cualquier aplicación que necesite encontrar información relevante, la búsqueda semántica es probablemente el enfoque correcto.

En profundidad

El pipeline: (1) codifica tus documentos en embeddings usando un modelo como BGE, E5 o Voyage, (2) almacena estos embeddings en una base de datos vectorial (Pinecone, Qdrant, Weaviate, pgvector), (3) cuando llega una consulta, codifícala con el mismo modelo, (4) encuentra los embeddings más cercanos usando métricas de similitud como la similitud del coseno o el producto punto. La consulta "cómo arreglar una fuga de memoria" coincide con un documento titulado "depuración del consumo de RAM en Node.js" porque sus embeddings están cerca en el espacio vectorial.

Búsqueda Híbrida

La búsqueda semántica pura tiene una debilidad: puede perder coincidencias exactas que la búsqueda por palabras clave captura fácilmente. Si alguien busca el código de error "ERR_SSL_PROTOCOL_ERROR", la búsqueda semántica podría devolver solución de problemas SSL generales en lugar del error exacto. La búsqueda híbrida combina ambos: coincidencia por palabras clave (BM25) para precisión y búsqueda semántica para recall, luego fusiona los resultados. La mayoría de los sistemas de búsqueda en producción usan enfoques híbridos.

La Elección del Modelo de Embedding Importa

La calidad de la búsqueda semántica depende completamente del modelo de embedding. Los modelos de propósito general (text-embedding-3 de OpenAI, Cohere Embed) funcionan bien para la mayoría del texto. Los modelos específicos de dominio (entrenados con datos médicos, legales o de código) superan a los modelos generales en su dominio. Los modelos multilingües permiten búsqueda entre idiomas. El leaderboard MTEB evalúa modelos de embedding en muchas tareas — es el mejor recurso para elegir uno.

Búsqueda Semántica

Por qué importa

En profundidad

Búsqueda Híbrida

La Elección del Modelo de Embedding Importa

Conceptos relacionados