El pipeline: (1) codifica tus documentos en embeddings usando un modelo como BGE, E5 o Voyage, (2) almacena estos embeddings en una base de datos vectorial (Pinecone, Qdrant, Weaviate, pgvector), (3) cuando llega una consulta, codifícala con el mismo modelo, (4) encuentra los embeddings más cercanos usando métricas de similitud como la similitud del coseno o el producto punto. La consulta "cómo arreglar una fuga de memoria" coincide con un documento titulado "depuración del consumo de RAM en Node.js" porque sus embeddings están cerca en el espacio vectorial.
La búsqueda semántica pura tiene una debilidad: puede perder coincidencias exactas que la búsqueda por palabras clave captura fácilmente. Si alguien busca el código de error "ERR_SSL_PROTOCOL_ERROR", la búsqueda semántica podría devolver solución de problemas SSL generales en lugar del error exacto. La búsqueda híbrida combina ambos: coincidencia por palabras clave (BM25) para precisión y búsqueda semántica para recall, luego fusiona los resultados. La mayoría de los sistemas de búsqueda en producción usan enfoques híbridos.
La calidad de la búsqueda semántica depende completamente del modelo de embedding. Los modelos de propósito general (text-embedding-3 de OpenAI, Cohere Embed) funcionan bien para la mayoría del texto. Los modelos específicos de dominio (entrenados con datos médicos, legales o de código) superan a los modelos generales en su dominio. Los modelos multilingües permiten búsqueda entre idiomas. El leaderboard MTEB evalúa modelos de embedding en muchas tareas — es el mejor recurso para elegir uno.