TurboQuant de Qdrant: compresión vectorial 8x sin calibración por dataset

La búsqueda vectorial es el impuesto silencioso de escalado sobre cada sistema RAG y cada agente que recuerda. Los embeddings solo crecen, y en algún punto la factura de memoria fuerza la cuantización — encoges los vectores, comes una pérdida de recall. Qdrant 1.18, lanzado el 11 de mayo, añade TurboQuant, y el encuadre que importa es el que su propia documentación pone por delante: no "¿podemos encoger vectores?" sino "¿podemos encogerlos sin romper su geometría?". Esa es la pregunta correcta, porque el recall es geometría — si la cuantización distorsiona las distancias de forma desigual, tus vecinos más cercanos dejan de ser los más cercanos.

El mecanismo de TurboQuant es una rotación ortogonal aleatoria aplicada antes de la compresión, y luego un solo codebook fijo. Los embeddings son anisótropos — un puñado de dimensiones cargan la mayor parte de la varianza (el set DBpedia OpenAI que usan de benchmark tiene un ratio de 233,5x entre las dimensiones más fuertes y las más débiles). La cuantización escalar trata cada dimensión por igual, así que desperdicia bits en dimensiones muertas y mata de hambre a las vivas. La product quantization arregla eso con codebooks por subespacio, pero esos necesitan entrenamiento por dataset y se vuelven obsoletos cuando tus datos se desplazan. La rotación de TurboQuant esparce la varianza por igual entre todas las dimensiones primero, así que un solo codebook uniforme es ahora casi óptimo — y como la rotación es aleatoria y fija, todo el asunto es data-oblivious. Sin entrenamiento, sin recalibración en la ingesta. Los números, sobre DBpedia de 1536 dim: TQ 4-bit alcanza ~8x de compresión con recall@10 de 0,965 (0,996 con rescoring), 6,4ms de latencia frente a los 7,6ms del float32, 72 MB de almacenamiento donde la cuantización escalar necesita 144. Las salvedades honestas pesan. El 32x estrella es TQ 1-bit, que el autor llama directamente "no una opción segura" — el recall se desploma. El número usable es 8x a 4-bit. El recall de 0,996 se apoya en el rescoring, lo que significa mantener los vectores completos para re-rankear, recuperando parte de la ganancia de almacenamiento. La cuantización binaria sigue siendo más rápida en throughput crudo; TurboQuant gana en estabilidad de recall a escala (0,965 donde el binario se hunde a 0,78 a 100K), no en velocidad. Y se prueba sobre exactamente un dataset — uno máximamente anisótropo, que es el caso más favorable para un método basado en rotación. Sobre embeddings más planos, isótropos, la rotación te compra mucho menos, y ese caso no se mide.

Lo que esto le hace al ecosistema es el patrón de banalización a velocidad: un resultado de Google Research de ICLR 2026 se convierte en un flag de config de una línea en un vector DB de código abierto en semanas. Toda la capa RAG y de agent-memory obtiene cuantización casi óptima, sin calibración, sin que nadie en el equipo necesite entender la teoría de la cuantización. También presiona a los vendedores de vector DB gestionados cuyo pitch incluye "afinamos la compresión por ti" — cuando la cuant data-oblivious es un parámetro `bits=4`, ese foso de afinado se adelgaza. La propiedad data-oblivious es la razón específica para usar esto en vez de product quantization: para memoria de agente de larga vida donde la distribución de embeddings se desplaza según ingieres, los codebooks aprendidos de PQ se descalibran y reentrenas; la rotación de TurboQuant no le importa cómo se ven tus datos, así que no hay nada que reajustar.

El lunes por la mañana, si corres búsqueda vectorial a escala: activa TQ 4-bit (no 1-bit) como opt-in en Qdrant 1.18 y mide el recall@k sobre tu propio corpus, con y sin rescoring, antes de confiar en el 8x. La instrucción del propio autor es la operativa — estos números vienen del DBpedia máximamente anisótropo, y tu distribución de embeddings es probablemente más plana, que es exactamente donde la rotación paga menos. Trata el 8x-a-0,965 como un techo a validar, no un número a asumir. Y si tu métrica de distancia es L1/Manhattan, sáltatelo — TurboQuant necesita reconstrucción completa ahí y la ventaja de velocidad se evapora; la cuantización escalar sigue siendo la opción más segura.

TurboQuant de Qdrant: compresión vectorial 8x sin calibración por dataset

Más noticias