EAGLE 3.1 corrige drift de atenção em decoding especulativo, mergeado no vLLM 0.22

O time EAGLE, vLLM, e TorchSpec lançaram conjuntamente EAGLE 3.1, corrigindo um bug real de produção em decoding especulativo: conforme a profundidade de especulação aumenta, o modelo drafter desvia sua atenção dos tokens sink em direção aos seus próprios tokens gerados, degradando o comprimento de aceitação e a estabilidade de saída. O fix são duas mudanças arquitetônicas — normalização FC aplicada após cada hidden state target e antes da camada FC para limitar as magnitudes dos hidden states, mais feedback hidden-state post-norm para que o drafter se comporte como invocação recursiva em vez de camadas anexadas. Já mergeado no main do vLLM, lançando em v0.22.0, retrocompatível com checkpoints EAGLE 3 existentes.

Os ganhos reportados são concretos. Em cargas long-context, até 2× comprimento de aceitação mais longo vs EAGLE 3. Em Kimi K2.6-NVFP4 SPEED-Bench coding, lifts de throughput por usuário de 2,03× em concorrência 1, 1,71× em concorrência 4, e 1,66× em concorrência 16. O padrão — maior lift em baixa concorrência, estreitando conforme a concorrência sobe — é o que construtores devem esperar de qualquer ganho de decoding especulativo: o decoding especulativo vence quando o modelo está gargalado em largura de banda de memória por request, esse é o regime em baixa concorrência. Em alta concorrência você está gargalado em throughput agregado e o win especulativo é menor. Não há comparações diretas contra Medusa ou baselines de draft-model vanilla no release, essa é a lacuna metodológica para sinalizar.

A leitura de ecossistema mora no caminho de integração mais que nos números. EAGLE tem sido a família de decoding especulativo de produção por dois anos; vLLM é o motor de inferência padrão para LLMs self-hosted; TorchSpec provê o lado de treinamento. Quando os três convergem em um lançamento que corrige uma instabilidade conhecida com uma mudança algorítmica retrocompatível, isso é a stack de inferência reduzindo sua variância load-bearing, não adicionando uma feature. O draft model open-sourced para Kimi K2.6 no HuggingFace significa que construtores em Kimi já têm o artefato; para outros modelos base, o trabalho do lado de treinamento está no TorchSpec. Os loops agentic com janelas de contexto crescendo são onde o drift de atenção mais doía — traços longos de agente, completion de código em arquivos longos, document QA — e essas são exatamente as cargas onde 2× comprimento de aceitação se traduz em wins de latência visíveis ao usuário.

Se você roda vLLM em produção: agende o upgrade 0.22.0 e re-treine seus draft models no TorchSpec quando puder. Se você constrói SaaS de inferência: essa é a mudança que silenciosamente melhora a curva de custo long-context para todos que usam sua stack.

EAGLE 3.1 corrige drift de atenção em decoding especulativo, mergeado no vLLM 0.22

Mais notícias