O KV cache é o elefante de memória no serving de LLMs de contexto longo. Cada token produz um tensor de chaves e valores que fica residente pela duração da sequência, e em contexto longo com modelos grandes o cache costuma consumir 20 a 30 por cento do VRAM total. As soluções existentes (grouped-query attention, PagedAttention, quantização INT4/INT8) ajudam mas estagnam. O TurboQuant, publicado esta semana como arxiv 2504.19874 pelo Google, reivindica cerca de 4,5 a 5x de compressão contra as baselines FP16 com perda de precisão quase nula, o que, se sustentar em produção, é a compressão de KV cache usável mais agressiva até hoje.
O truque é um pipeline em duas etapas. A etapa um rotaciona aleatoriamente os vetores de entrada, o que concentra os valores de coordenadas em uma distribuição Beta e permite aplicar um quantizador escalar ótimo por coordenada. A etapa dois aplica um quantizador MSE seguido de uma transformação Johnson-Lindenstrauss quantizada a 1 bit sobre o resíduo. O armazenamento por token se resume a índices de quantização, bits de sinal e um escalar de norma L2. A 3,5 bits por canal o paper relata "neutralidade de qualidade absoluta", ou seja, a perda de precisão é estatisticamente nula na avaliação deles. A 2,5 bits por canal relata "degradação de qualidade marginal". A etapa de rotação é a sacada arquitetural: você paga um pequeno custo de compute para deixar a distribuição de coordenadas amigável à quantização, e a quantização escalar por coordenada faz a compressão em vez das abordagens tradicionais por grupo ou por tensor.
Para quem serve LLMs com contexto longo, a conta é direta. Se sua stack atual cacheia KV em FP16 e você está limitado por VRAM (o caso comum em serving mono-nó com 32k+ de contexto), 4,5 a 5x de compressão se traduz em cerca de 5x requests concorrentes no mesmo orçamento de memória, ou 5x o comprimento de contexto por request. A ressalva é que o abstract não enumera quais modelos foram testados, então antes de levar o TurboQuant para produção, verifique se a avaliação cobre sua família de modelos e seus comprimentos de sequência. O paper também mira busca do vizinho mais próximo como segunda aplicação, o que sugere que o padrão rotação-mais-quantização generaliza além dos caches de atenção.
O caminho prático para uma equipe de serving em produção é ficar de olho em implementações de referência e fazer benchmark contra o que você já roda. O TurboQuant se encaixa no mesmo lugar da sua stack de inferência onde KIVI, KVQuant ou Atom iriam, então o custo de integração é similar. Se você já quantizou o KV cache, compare 3,5 bits por canal a perda de qualidade zero contra seu setup atual; é um piso competitivo para 2026. Se você ainda não quantizou, este paper é o melhor argumento atual para começar agora. A tendência mais ampla é que a compressão do KV cache não é mais uma otimização opcional. Em cargas de contexto longo é a restrição limitante, e a pesquisa dos labs de fronteira converge rapidamente para esquemas sub-4-bits que preservam a precisão.
