Des chercheurs du MIT, de NVIDIA et de l'Université Zhejiang ont développé TriAttention, une méthode de compression du cache KV qui offre un débit 2,5× plus élevé tout en maintenant une qualité d'attention complète. La technique exploite une propriété auparavant négligée : dans l'espace pré-RoPE, les vecteurs query et key se regroupent autour de centres fixes qui restent stables à travers les positions, contrairement aux queries rotatives dans l'espace post-RoPE sur lesquelles la plupart des méthodes de compression s'appuient.
C'est important parce que la mémoire du cache KV est le goulot d'étranglement principal qui écrase les applications IA à contexte long. Quand des modèles comme DeepSeek-R1 travaillent à travers des chaînes de raisonnement complexes générant des dizaines de milliers de tokens, chaque token doit être stocké dans le cache KV. J'ai couvert des efforts similaires avant — TurboQuant de Google et KVPress de NVIDIA même — mais ces approches avaient encore de la difficulté avec l'instabilité fondamentale du scoring d'attention dépendant de la position.
La percée de TriAttention réside dans la reconnaissance que ces centres de vecteurs pré-RoPE créent des préférences de distance prévisibles à travers des séries trigonométriques. Au lieu de deviner quels keys importent basé sur les patterns d'attention récents, la méthode peut scorer l'importance des keys basé sur la position et les normes de vecteurs. Le papier arXiv montre que cette approche maintient la stabilité de raisonnement à travers de longues séquences où d'autres méthodes de compression échouent.
Pour les développeurs qui construisent des applications à contexte long, cela pourrait finalement rendre les fenêtres de contexte de 32K+ économiquement viables en production. La réduction de mémoire de 60% signifie que vous pouvez servir plus d'utilisateurs ou gérer des conversations plus longues sans la croissance de coûts exponentielle qui tue la plupart des déploiements à contexte long aujourd'hui.
