NVIDIA发布了KVPress,这是一个开源工具包,可以压缩长上下文语言模型推理中使用的Key-Value cache。该库提供多种压缩策略,包括ExpectedAttentionPress和KnormPress,允许开发者在生成过程中减少内存使用,无需重新训练模型。早期测试显示在Qwen2.5-1.5B-Instruct等模型上有显著的内存节省,尽管实际压缩比和性能影响因策略和用例而异。
这解决了我自今年早些时候报道Google的TurboQuant以来一直在跟踪的关键瓶颈。KV cache内存消耗随上下文长度呈二次方增长,在长上下文场景中往往比模型权重本身消耗更多VRAM。虽然int8和int4 KV压缩等量化方法提供直接的2x-4x内存减少,但NVIDIA的方法专注于智能地丢弃不太重要的cached attention状态,而不是仅仅压缩它们。
值得注意的是,这如何融入内存优化成为实际AI部署主要约束的更广泛模式。其他消息源证实KV cache问题正在"扼杀"生产中的长上下文AI agent,使连续对话和大文档处理成本高得令人望而却步。二次缩放问题意味着将上下文长度加倍会使计算成本翻两番——这是压缩本身无法完全解决的根本限制。
对于构建生产AI系统的开发者来说,KVPress代表了优化工具包中的另一个工具,但不是万能药。压缩策略需要仔细调整,并伴随质量权衡,需要针对你的特定工作负载进行测试。更重要的是,它表明内存优化对于现实世界的AI应用变得与模型性能一样关键。
