来自MIT、NVIDIA和浙江大学的研究人员开发了TriAttention,这是一种KV cache压缩方法,在保持完整注意力质量的同时提供2.5倍的吞吐量。该技术利用了一个此前被忽视的特性:在pre-RoPE空间中,query和key向量聚集在固定中心周围,这些中心在不同位置保持稳定,不像大多数压缩方法依赖的post-RoPE空间中的旋转queries。
这很重要,因为KV cache内存是压垮长上下文AI应用的主要瓶颈。当像DeepSeek-R1这样的模型处理复杂推理链并生成数万个token时,每个token都必须存储在KV cache中。我之前报道过类似的努力——Google的TurboQuant和NVIDIA自己的KVPress——但这些方法仍然在位置依赖的注意力评分的根本不稳定性上遇到困难。
TriAttention的突破在于认识到这些pre-RoPE向量中心通过三角级数创建可预测的距离偏好。该方法不是基于最近的注意力模式猜测哪些key重要,而是可以基于位置和向量范数来评分key的重要性。arXiv论文显示,这种方法在长序列中保持推理稳定性,而其他压缩方法在此处失败。
对于构建长上下文应用的开发者来说,这最终可能使32K+上下文窗口在生产中经济可行。60%的内存减少意味着你可以服务更多用户或处理更长的对话,而不会出现今天杀死大多数长上下文部署的指数级成本增长。
