KV cache agora é o gargalo de inferência — uma pesquisa de 10 técnicas de compressão (H2O, StreamingLLM, KIVI, KVQuant, TurboQuant, MLA, GQA, Palu) mapeia o espaço de trade-offs

A memória do KV cache ultrapassou os pesos do modelo como a restrição estrutural para inferência de LLM em produção em escala. Os números de uma pesquisa técnica da Marktechpost publicada na quarta-feira: um modelo de 30 bilhões de parâmetros rodando batch 128 com entradas de 1.024 tokens precisa de cerca de 180GB só para o estado do KV cache. Para um modelo 7B, o KV cache (72GB) é 5x maior que os próprios parâmetros do modelo (14GB em FP16). Essa é a inversão que dirige uma área de pesquisa ativa — comprima o KV cache sem retreinar o modelo base e você recupera margem de tamanho de batch, aumenta throughput, e atende mais usuários concorrentes no mesmo hardware. A pesquisa cobre 10 técnicas relevantes para produção em quatro famílias de estratégia.

Família um é eviction — mantenha alguns tokens, descarte outros. H2O (Heavy Hitter Oracle, NeurIPS 2023) observou que uma pequena fração de tokens carrega a maior parte da massa de atenção e dinamicamente retém esses mais tokens recentes, alcançando 29x throughput sobre HuggingFace Accelerate em OPT-6.7B/30B. StreamingLLM mantém os primeiros tokens (que agem como "sumidouros de atenção") mais uma janela deslizante de recência — rápido e amigável a hardware mas cego à importância semântica no contexto do meio. SnapKV usa uma janela de observação no fim de prompts longos para comprimir especificamente a fase de prefill, atacando uma fase que o H2O deixa intacta. PyramidKV / PyramidInfer aloca diferentes tamanhos de cache por camada com base em padrões de atenção observados, reivindicando 2,2x throughput e 54 por cento de redução de memória GPU. O modo de falha da família eviction é perda de informação: qualquer coisa descartada se vai pelo resto da geração, então a qualidade degrada em tarefas que precisam de recall disperso de meio contexto.

Família dois é quantização — mantenha todos os tokens, baixe os bits por token. KIVI é quantização KV 2-bit plug-and-play sem fine-tuning, quantizando chaves por canal e valores por token; reporta 2,6x redução de memória pico, 4x batches maiores e ganhos de throughput de 2,35-3,47x. KVQuant adiciona precisão mista calibrada (quant chave por canal, quant pré-RoPE, decomposição denso-sparse) e empurra para precisão sub-4-bit para contextos de até 10 milhões de tokens. TurboQuant — método recente do Google — usa rotação ortogonal aleatória (PolarQuant) mais correção Johnson-Lindenstrauss quantizada 1-bit, reivindicando 6-8x redução de memória a 3-bit sem etapa de calibração offline. Família três é arquitetural: Grouped-Query Attention (GQA) e Multi-Query Attention (MQA) reduzem o tamanho do KV cache por design — múltiplas cabeças de query compartilham menos cabeças key/value. GQA agora é o padrão de facto no Llama 3, Mistral e na maioria dos modelos open-weight. O Multi-head Latent Attention (MLA) do DeepSeek vai mais longe: projeta chaves e valores num vetor latente comprimido durante inferência e reporta 93,3 por cento de redução de KV cache no DeepSeek-V2 sem perda de qualidade. Família quatro — decomposição de pesos low-rank do Palu / LoRC — aplica projeção low-rank de cabeça de grupo e é ortogonal tanto a quantização quanto a eviction, o que significa que pode empilhar com as outras famílias.

Para builders, três leituras. Primeiro, a técnica certa depende de qual fase te limita. Se a latência de prefill é a restrição (prompts muito longos), SnapKV e métodos classe Pyramid ajudam; se o throughput de decode é a restrição (gerações longas, muitos usuários concorrentes), H2O, KIVI e StreamingLLM dominam. Se você está treinando um novo modelo do zero, o fix arquitetural (GQA/MLA) é a primeira alavanca — é grátis em tempo de inferência e empilha com tudo. Segundo, observe quais stacks de inferência integram quais técnicas: vLLM, TensorRT-LLM, SGLang, llama.cpp e TGI cada um tem conjuntos suportados diferentes, e o gap entre "o paper de pesquisa reivindica X" e "a biblioteca de produção entrega X com kernels que funcionam na sua GPU" é real. Terceiro, a inversão (KV cache > pesos do modelo) é a razão arquitetural pela qual cada lançamento de modelo frontier em 2025-2026 entregou com modificações de atenção embutidas (GQA do Llama 3, MLA do DeepSeek-V2/V3, híbrido GDN-mais-atenção do Qwen3). Os "pesos abertos" que você baixa agora incluem apostas implícitas de compressão de KV cache; se você está comparando modelos entre si, comparar custo de inferência exige medir a pegada do KV cache no seu tamanho de batch e comprimento de sequência específicos, não só na contagem de parâmetros. A lição para builders: quando memória é o gargalo, a contagem de pesos do modelo não é mais a unidade certa de comparação.

KV cache agora é o gargalo de inferência — uma pesquisa de 10 técnicas de compressão (H2O, StreamingLLM, KIVI, KVQuant, TurboQuant, MLA, GQA, Palu) mapeia o espaço de trade-offs

Mais notícias