NVIDIA發布了KVPress,這是一個開源工具包,可以壓縮長上下文語言模型推理中使用的Key-Value cache。該函式庫提供多種壓縮策略,包括ExpectedAttentionPress和KnormPress,允許開發者在生成過程中減少記憶體使用,無需重新訓練模型。早期測試顯示在Qwen2.5-1.5B-Instruct等模型上有顯著的記憶體節省,儘管實際壓縮比和效能影響因策略和用例而異。

這解決了我自今年稍早報導Google的TurboQuant以來一直在追蹤的關鍵瓶頸。KV cache記憶體消耗隨上下文長度呈二次方成長,在長上下文場景中往往比模型權重本身消耗更多VRAM。雖然int8和int4 KV壓縮等量化方法提供直接的2x-4x記憶體減少,但NVIDIA的方法專注於智慧地丟棄較不重要的cached attention狀態,而不是僅僅壓縮它們。

值得注意的是,這如何融入記憶體最佳化成為實際AI部署主要約束的更廣泛模式。其他消息來源證實KV cache問題正在「扼殺」生產中的長上下文AI代理程式,使連續對話和大文件處理成本高得令人望而卻步。二次縮放問題意味著將上下文長度加倍會使運算成本變成四倍——這是壓縮本身無法完全解決的根本限制。

對於建構生產AI系統的開發者來說,KVPress代表了最佳化工具包中的另一個工具,但不是萬靈丹。壓縮策略需要仔細調整,並伴隨品質權衡,需要針對你的特定工作負載進行測試。更重要的是,它表明記憶體最佳化對於現實世界的AI應用變得與模型效能一樣關鍵。