來自MIT、NVIDIA和浙江大學的研究人員開發了TriAttention,這是一種KV cache壓縮方法,在保持完整注意力品質的同時提供2.5倍的吞吐量。該技術利用了一個此前被忽視的特性:在pre-RoPE空間中,query和key向量聚集在固定中心周圍,這些中心在不同位置保持穩定,不像大多數壓縮方法依賴的post-RoPE空間中的旋轉queries。
這很重要,因為KV cache記憶體是壓垮長脈絡AI應用的主要瓶頸。當像DeepSeek-R1這樣的模型處理複雜推理鏈並生成數萬個token時,每個token都必須儲存在KV cache中。我之前報導過類似的努力——Google的TurboQuant和NVIDIA自己的KVPress——但這些方法仍然在位置依賴的注意力評分的根本不穩定性上遇到困難。
TriAttention的突破在於認識到這些pre-RoPE向量中心透過三角級數創建可預測的距離偏好。該方法不是基於最近的注意力模式猜測哪些key重要,而是可以基於位置和向量範數來評分key的重要性。arXiv論文顯示,這種方法在長序列中保持推理穩定性,而其他壓縮方法在此處失敗。
對於構建長脈絡應用的開發者來說,這最終可能使32K+脈絡視窗在生產中經濟可行。60%的記憶體減少意味著你可以服務更多使用者或處理更長的對話,而不會出現今天殺死大多數長脈絡部署的指數級成本增長。
