Base de datos vectorial: Definición y significado — Wiki de IA

Una base de datos optimizada para almacenar y buscar embeddings (vectores). En lugar de coincidir palabras clave exactas como una base de datos tradicional, las bases de datos vectoriales encuentran los elementos mas semanticamente similares. Preguntas "como arreglar una fuga de memoria" y te devuelve documentos sobre "depuracion de consumo de RAM" porque los embeddings son cercanos.

Por qué importa

Las bases de datos vectoriales son la capa de almacenamiento que hace funcionar RAG. Sin ellas, tendrias que generar embeddings de toda tu base de conocimiento en cada consulta. Tambien son la columna vertebral de los sistemas de recomendacion y la busqueda semantica.

En profundidad

Una base de datos vectorial almacena vectores de alta dimension (tipicamente de 384 a 3072 numeros de punto flotante, dependiendo del modelo de embedding) y soporta busqueda rapida de vecinos mas cercanos en millones o miles de millones de ellos. La operacion fundamental es: dado un vector de consulta, encontrar los k vectores en la base de datos que estan mas cerca de el, medidos por similitud coseno, producto punto o distancia euclidiana. La busqueda por fuerza bruta (comparar la consulta contra cada vector almacenado) es exacta pero demasiado lenta a escala. Asi que las bases de datos vectoriales usan algoritmos de vecinos mas cercanos aproximados (ANN) que intercambian una minima cantidad de precision por ganancias masivas de velocidad — tipicamente encontrando el 95–99% de los verdaderos vecinos mas cercanos mientras buscan solo una pequena fraccion del indice.

Como funciona el indice

El algoritmo ANN mas comun es HNSW (Hierarchical Navigable Small World), utilizado por Qdrant, Weaviate, pgvector y muchos otros. HNSW construye un grafo de multiples capas donde cada vector es un nodo conectado a sus vecinos mas cercanos. La busqueda comienza en la capa superior (conexiones dispersas de largo alcance) y desciende a capas inferiores (conexiones densas de corto alcance), como hacer zoom en un mapa. Es rapido, preciso y funciona bien para datasets de hasta unos cientos de millones de vectores. La compensacion es la memoria: HNSW mantiene el grafo en RAM, asi que necesitas suficiente memoria para tus vectores mas la sobrecarga del grafo. Para un millon de vectores de 1536 dimensiones (la salida de ada-002 de OpenAI), eso es aproximadamente 6–8 GB. Alternativas como IVF (inverted file index) y ScaNN usan menos memoria pero requieren mas ajuste. Pinecone y algunas configuraciones de Qdrant usan cuantizacion — comprimiendo vectores de float32 a int8 o binario — para caber mas vectores en la misma memoria a costa de una ligera perdida de precision.

Eligiendo tu base de datos

Elegir entre las principales bases de datos vectoriales depende de tus restricciones. Qdrant y Weaviate son open source y autoalojables, lo cual importa para privacidad de datos y control de costos — los corres en tu propia infraestructura y solo pagas por computo. Pinecone es completamente gestionado (sin infraestructura que operar) pero atado al proveedor y con precio por vector, lo cual se vuelve caro a escala. ChromaDB es liviano e embebido (corre en proceso, almacena en disco), excelente para prototipos y datasets pequenos pero no construido para cargas de trabajo en produccion con millones de vectores. PostgreSQL con la extension pgvector es atractivo si ya corres Postgres, ya que evitas agregar una nueva base de datos a tu stack, pero su rendimiento de consultas queda atras de las bases de datos vectoriales construidas a proposito en escalas mayores. Para la mayoria de los sistemas RAG en produccion, Qdrant o Weaviate te dan el mejor balance de rendimiento, funcionalidades y control operativo.

El filtrado importa

El filtrado por metadata es una funcionalidad que separa las bases de datos vectoriales serias de las implementaciones de juguete. En la practica, casi nunca quieres buscar en toda tu coleccion — quieres buscar "todos los documentos subidos por este usuario" o "solo documentos de los ultimos 30 dias" o "solo fragmentos de este PDF especifico". Las bases de datos vectoriales te permiten almacenar metadata junto a cada vector y aplicar filtros antes o durante la busqueda de similitud. Esto se llama pre-filtrado (filtrar primero, luego buscar en el conjunto reducido) o post-filtrado (buscar en todo, luego descartar resultados que no coincidan). El pre-filtrado es mas eficiente pero requiere que el indice lo soporte; la mayoria de las bases de datos en produccion ahora lo hacen. Definir bien tu esquema de metadata al momento de indexar ahorra un dolor enorme despues — adaptar filtros a una coleccion que no fue disenada para ellos frecuentemente significa re-indexar todo.

Todavia madurando rapido

Las bases de datos vectoriales existian antes de la ola actual de IA — Spotify usaba busqueda de vecinos mas cercanos aproximados para recomendaciones de musica hace anos, y la libreria Faiss de Facebook existe desde 2017. Pero la explosion de modelos de embedding y RAG en 2023–2024 las convirtio de una tecnologia de nicho en infraestructura critica. El espacio todavia esta madurando rapido: multi-tenancy (aislamiento eficiente de datos entre clientes en un despliegue compartido), busqueda hibrida (combinando busqueda vectorial y por palabras clave en una sola consulta) e indexacion en disco (manejo de datasets mas grandes que la RAM) son todas areas donde los productos difieren significativamente y estan mejorando rapidamente. Si estas comenzando un proyecto hoy, elige una base de datos que maneje tu escala actual, soporte filtrado por metadata y busqueda hibrida, y tenga una trayectoria activa de mantenimiento. Siempre puedes migrar despues — los vectores de embedding son portables.

Base de datos vectorial