A NVIDIA Research integrou decodificação especulativa EAGLE-3 diretamente no NeMo RL com backend vLLM, entregando aceleração medida de 1,8× em geração de rollout a 8B e aceleração end-to-end projetada por simulador de 2,5× a 235B. O trabalho usa GRPO (Generative Reward Policy Optimization) e roda em 32 GPUs GB200 através de 8 nós GB200 NVL72. O interessante não é o número da aceleração — é que tratam a fase de rollout RL como um problema limitado por geração e trazem otimizações do stack de inferência para aplicar.
A ausência de perdas é a afirmação carregadora. O time argumenta equivalência matemática: amostragem por rejeição contra a distribuição do modelo alvo é provadamente equivalente à geração autorregressiva desse modelo. Validam empiricamente rastreando acurácia de validação AIME-2024 durante todo o treinamento sob regimes autorregressivo e especulativo — as curvas se sobrepõem. Os comprimentos de aceitação reportados (tokens verificados por draft) são 2,47 e 2,05 em duas cargas de trabalho (RL-Think para treinamento de raciocínio continuado, RL-Zero para partida da base). O 2,5× a 235B é extrapolado via um simulador GPU proprietário calibrado para compute, memória e interconnect classe GB200 — não medido. Referência paper: arXiv:2604.26779.
Para infra de treinamento RL, isso é um movimento real de eficiência. Geração de rollout é o sumidouro de tempo dominante em pipelines RL modernos — um rollout de raciocínio pode ser dezenas de milhares de tokens, repetidos por milhares de trajetórias por passo de gradiente. Cortar isso por 1,8× com garantia sem perdas significa mais amostras por dólar, e o enquadramento como "stack de inferência dentro do trainer RL" é a mudança arquitetural a acompanhar. Espere ver esse padrão (specDec, cabeças MTP, batching estilo vLLM dentro do treinamento) aterrissar no TRL, OpenRLHF, e outros stacks RL abertos em meses. Os que não entregarem viram os lentos.
Se você treina com NeMo RL, a aceleração está nas suas mãos; a integração está no trainer. Se você está em TRL ou num stack RL customizado, o caminho EAGLE-3 mais MTP nativo está documentado o suficiente para portar — a parte mais dura é cabear o backend vLLM na sua fase de rollout sem quebrar fluxo de gradiente. A projeção a 235B é número de simulador, então não orce capacidade assumindo isso. O 8B medido é real, e na escala 8-32B onde acontece a maioria do fine-tuning, a aceleração é para levar.
