Pesquisadores do MIT, NVIDIA e Universidade de Zhejiang desenvolveram o TriAttention, um método de compressão de cache KV que entrega throughput 2,5× maior enquanto mantém qualidade de atenção completa. A técnica explora uma propriedade anteriormente negligenciada: no espaço pré-RoPE, vetores query e key se agrupam ao redor de centros fixos que permanecem estáveis através das posições, diferente das queries rotativas no espaço pós-RoPE em que a maioria dos métodos de compressão se baseia.
Isso importa porque memória de cache KV é o gargalo principal que esmaga aplicações de IA de contexto longo. Quando modelos como DeepSeek-R1 trabalham através de cadeias de raciocínio complexas gerando dezenas de milhares de tokens, cada token deve ser armazenado no cache KV. Já cobri esforços similares antes — TurboQuant do Google e KVPress da própria NVIDIA — mas essas abordagens ainda lutavam com a instabilidade fundamental do scoring de atenção dependente de posição.
O avanço do TriAttention está em reconhecer que esses centros de vetores pré-RoPE criam preferências de distância previsíveis através de séries trigonométricas. Em vez de adivinhar quais keys importam baseado em padrões de atenção recentes, o método pode pontuar importância de keys baseado em posição e normas de vetores. O paper do arXiv mostra que essa abordagem mantém estabilidade de raciocínio através de sequências longas onde outros métodos de compressão falham.
Para desenvolvedores construindo aplicações de contexto longo, isso poderia finalmente tornar janelas de contexto de 32K+ economicamente viáveis em produção. A redução de memória de 60% significa que você pode servir mais usuários ou lidar com conversas mais longas sem o crescimento exponencial de custos que mata a maioria dos deployments de contexto longo hoje.
