在长上下文 LLM 的服务里,KV cache 一直是房间里的内存大象。每个 token 都会产生一对 keys 和 values 张量,在整段序列期间常驻显存;长上下文叠加大模型时,cache 经常吃掉总 VRAM 的 20% 到 30%。现有的缓解方案(grouped-query attention、PagedAttention、INT4/INT8 量化)都有帮助但走到了瓶颈。本周谷歌在 arxiv 2504.19874 发布的 TurboQuant 声称相对 FP16 基线可做到约 4.5 到 5 倍压缩,精度损失近乎为零;如果在生产中也扛得住,这就是迄今最激进的可用 KV cache 压缩方案。

关键在两段流水线。第一阶段对输入向量做随机旋转,把坐标分布集中到 Beta 分布上,从而允许每个坐标独立应用最优标量量化器。第二阶段先做 MSE 量化,再对残差套一层 1-bit Quantized Johnson-Lindenstrauss 变换。每个 token 的存储就被压成量化索引、符号位和一个 L2 范数标量。每通道 3.5 bit 时,论文报告「绝对质量中性」,也就是在他们的评测里精度损失在统计意义上是零;每通道 2.5 bit 时则是「边际质量下降」。旋转这一步是架构上的关键:你花一点计算把坐标分布变成「对量化友好」的形状,然后就用逐坐标标量量化替代传统的逐组或逐张量方案来做压缩。

对任何在长上下文下跑 LLM serving 的人,算账都很直接。如果你的 stack 还在 FP16 缓存 KV、并且被 VRAM 卡住(单节点、32k+ 上下文的常见情形),4.5 到 5 倍的压缩大致等价于在同一内存预算下处理 5 倍并发请求,或者每个请求吃下 5 倍的上下文长度。要留心的是,abstract 没列具体测了哪些模型,所以上生产之前,先确认他们评测覆盖了你的模型系列和序列长度。论文同时把最近邻检索作为第二个目标应用,说明「旋转 + 量化」这个套路能跨出 attention cache。

生产 serving 团队的实用路径是盯紧参考实现,并对着你现在在跑的东西跑基准。TurboQuant 插进你推理栈的位置和 KIVI、KVQuant、Atom 差不多,集成成本也相近。如果你已经量化过 KV cache,把每通道 3.5 bit、零质量损失当作对照你当前配置的地板价;在 2026 年这已经是有竞争力的底线。如果还没量化,这篇论文就是现在最好的启动理由。更大的趋势是:KV cache 压缩已经不再是「可选优化」;在长上下文负载上,它是最吃紧的约束,而前沿实验室的研究正在快速收敛到「低于 4 bit 但保精度」的方案。