向量搜索是每个 RAG 系统、每个会记忆的智能体身上那笔沉默的扩展税。embedding 只会增长,到某个点内存账单就逼你做量化——把向量缩小,吃掉一点召回损失。5 月 11 日发布的 Qdrant 1.18 加入了 TurboQuant,而真正重要的框架是它自己的文档摆在最前面的那个:不是"我们能缩小向量吗",而是"我们能在不破坏其几何结构的前提下缩小它们吗"。这才是对的问题,因为召回就是几何——如果量化不均匀地扭曲了距离,你的最近邻就不再是最近的了。

TurboQuant 的机制是在压缩前施加一个随机正交旋转,然后用一个固定的 codebook。embedding 是各向异性的——少数维度承载了大部分方差(他们做基准的 DBpedia OpenAI 数据集,最强维度和最弱维度之间有 233.5 倍的比率)。标量量化对每个维度一视同仁,于是在死维度上浪费比特,把活维度饿着。product quantization 用按子空间的 codebook 解决了这点,但那些需要按数据集训练,数据漂移时就过时。TurboQuant 的旋转先把方差均匀地铺在所有维度上,于是单个统一 codebook 现在接近最优——而且因为旋转是随机且固定的,整件事是 data-oblivious 的。无需训练,摄入时无需重新校准。数字,在 1536 维的 DBpedia 上:TQ 4-bit 达到约 8 倍压缩,recall@10 为 0.965(加 rescoring 是 0.996),延迟 6.4 毫秒对比 float32 的 7.6 毫秒,存储 72 MB,而标量量化需要 144 MB。诚实的警告很关键。头条的 32 倍是 TQ 1-bit,作者直接称其"不是安全的选择"——召回崩塌。可用的数字是 4-bit 的 8 倍。0.996 的召回靠 rescoring,意味着保留完整向量来重排,把一部分存储收益又吐了回去。二值量化在原始吞吐上仍然更快;TurboQuant 赢在规模下的召回稳定性(0.965,而二值在 10 万量级跌到 0.78),不是速度。而且它只在一个数据集上测试——一个最大各向异性的数据集,这正是基于旋转的方法最有利的情况。在更平的、各向同性的 embedding 上,旋转给你的收益少得多,而那个情况没被测量。

这对生态系统的影响是高速的商品化模式:一个来自 Google Research、ICLR 2026 的成果,几周内就变成开源向量数据库里一行配置标志。整个 RAG 和 agent-memory 层得到接近最优、无需校准的量化,而团队里没人需要懂量化理论。它也挤压那些卖点包含"我们替你调压缩"的托管向量数据库厂商——当 data-oblivious 量化是一个 `bits=4` 参数时,那道调优护城河就变薄了。data-oblivious 这一属性正是相对于 product quantization 选它的具体理由:对于长生命周期的智能体记忆,embedding 分布随你摄入而漂移,PQ 学到的 codebook 会失准、你得重训;TurboQuant 的旋转不在乎你的数据长什么样,所以没有任何东西需要重新调。

周一早上,如果你大规模运行向量搜索:在 Qdrant 1.18 里以 opt-in 方式打开 TQ 4-bit(不是 1-bit),并在你自己的语料上测量 recall@k,带和不带 rescoring,然后再去信那个 8 倍。作者自己的指令才是可执行的——这些数字来自最大各向异性的 DBpedia,而你的 embedding 分布很可能更平,而那正是旋转回报最少的地方。把 8 倍-到-0.965 当作一个待验证的上限,而不是一个可假定的数字。如果你的距离度量是 L1/曼哈顿,就跳过——TurboQuant 在那里需要完整重构,速度优势蒸发;标量量化仍是更安全的选择。