Google研究人员发现,应用极坐标变换——高中教授的基础三角学——可以将NVIDIA H100上的KV缓存内存使用量减少6倍,同时提供8倍性能提升。该技术利用极坐标的数学性质来压缩transformer模型在推理期间用于存储注意力权重的key-value缓存,大幅削减内存需求而不牺牲准确性。
这很重要,因为KV缓存是生产环境中large language models的主要内存瓶颈。每个生成的token都需要存储先前的注意力状态,随着上下文窗口达到128K+tokens,缓存内存呈指数级爆炸。6倍的减少意味着你可以在相同硬件上为6倍更多用户提供服务,或运行因内存约束而此前不可能的模型。对于烧钱运行H100集群的云提供商,这种优化意味着大量成本节省。
其他来源缺乏额外报道很说明问题——要么这太新以至于验证待定,要么技术细节足够复杂,少有媒体具备AI基础设施专业知识来适当评估这些声明。RSS摘要对"三角学课上专心听讲"的随意提及低估了看似精密的数学工程,暗示这个突破可能比最初看起来更容易实施。
开发者应该关注Google是否会开源这个优化或将其集成到他们的服务基础设施中。如果该技术如宣传的那样有效,预期整个行业的快速采用——任何提供6倍内存节省的优化都将成为竞争性AI服务的基本要求。问题不是这是否会被采用,而是竞争对手多快会逆向工程并实施类似方法。
