Google的极坐标技巧将H100内存使用量减少6倍

Google研究人员发现，应用极坐标变换——高中教授的基础三角学——可以将NVIDIA H100上的KV缓存内存使用量减少6倍，同时提供8倍性能提升。该技术利用极坐标的数学性质来压缩transformer模型在推理期间用于存储注意力权重的key-value缓存，大幅削减内存需求而不牺牲准确性。

这很重要，因为KV缓存是生产环境中large language models的主要内存瓶颈。每个生成的token都需要存储先前的注意力状态，随着上下文窗口达到128K+tokens，缓存内存呈指数级爆炸。6倍的减少意味着你可以在相同硬件上为6倍更多用户提供服务，或运行因内存约束而此前不可能的模型。对于烧钱运行H100集群的云提供商，这种优化意味着大量成本节省。

其他来源缺乏额外报道很说明问题——要么这太新以至于验证待定，要么技术细节足够复杂，少有媒体具备AI基础设施专业知识来适当评估这些声明。RSS摘要对"三角学课上专心听讲"的随意提及低估了看似精密的数学工程，暗示这个突破可能比最初看起来更容易实施。

开发者应该关注Google是否会开源这个优化或将其集成到他们的服务基础设施中。如果该技术如宣传的那样有效，预期整个行业的快速采用——任何提供6倍内存节省的优化都将成为竞争性AI服务的基本要求。问题不是这是否会被采用，而是竞争对手多快会逆向工程并实施类似方法。

Google的极坐标技巧将H100内存使用量减少6倍

更多新闻