Investigadores del MIT, NVIDIA y la Universidad de Zhejiang han desarrollado TriAttention, un método de compresión de cache KV que entrega un throughput 2.5× mayor mientras mantiene calidad de atención completa. La técnica explota una propiedad previamente pasada por alto: en el espacio pre-RoPE, los vectores query y key se agrupan alrededor de centros fijos que permanecen estables a través de las posiciones, a diferencia de las queries rotativas en el espacio post-RoPE en las que se basan la mayoría de los métodos de compresión.

Esto importa porque la memoria del cache KV es el cuello de botella principal que aplasta las aplicaciones de IA de contexto largo. Cuando modelos como DeepSeek-R1 trabajan a través de cadenas de razonamiento complejas generando decenas de miles de tokens, cada token debe almacenarse en el cache KV. He cubierto esfuerzos similares antes — TurboQuant de Google y KVPress de la propia NVIDIA — pero esos enfoques aún luchaban con la inestabilidad fundamental del scoring de atención dependiente de posición.

El avance de TriAttention radica en reconocer que estos centros de vectores pre-RoPE crean preferencias de distancia predecibles a través de series trigonométricas. En lugar de adivinar qué keys importan basándose en patrones de atención recientes, el método puede calificar la importancia de las keys basándose en posición y normas de vectores. El paper de arXiv muestra que este enfoque mantiene estabilidad de razonamiento a través de secuencias largas donde otros métodos de compresión fallan.

Para desarrolladores construyendo aplicaciones de contexto largo, esto podría finalmente hacer que las ventanas de contexto de 32K+ sean económicamente viables en producción. La reducción de memoria del 60% significa que puedes servir más usuarios o manejar conversaciones más largas sin el crecimiento exponencial de costos que mata la mayoría de los despliegues de contexto largo hoy.