NVIDIA Research ha integrado decodificación especulativa EAGLE-3 directamente en NeMo RL con un backend vLLM, entregando aceleración medida de 1,8× en generación de rollout a 8B y aceleración end-to-end proyectada por simulador de 2,5× a 235B. El trabajo usa GRPO (Generative Reward Policy Optimization) y corre en 32 GPUs GB200 a través de 8 nodos GB200 NVL72. Lo interesante no es el número de aceleración — es que tratan la fase de rollout RL como un problema acotado por generación y traen optimizaciones del stack de inferencia a aplicar.
La ausencia de pérdida es la afirmación de carga. El equipo argumenta equivalencia matemática: el muestreo por rechazo contra la distribución del modelo objetivo es comprobablemente equivalente a la generación autoregresiva desde ese modelo. Validan empíricamente rastreando precisión de validación AIME-2024 durante todo el entrenamiento bajo regímenes autoregresivo y especulativo — las curvas se superponen. Las longitudes de aceptación reportadas (tokens verificados por draft) son 2,47 y 2,05 en dos cargas de trabajo (RL-Think para entrenamiento de razonamiento continuo, RL-Zero para arranque desde base). El 2,5× a 235B es extrapolado vía un simulador GPU propietario calibrado a compute, memoria e interconnect clase GB200 — no medido. Referencia paper: arXiv:2604.26779.
Para infra de entrenamiento RL, esto es un movimiento real de eficiencia. La generación de rollout es el sumidero de tiempo dominante en pipelines RL modernos — un rollout de razonamiento puede ser decenas de miles de tokens, repetidos a través de miles de trayectorias por paso de gradiente. Cortar eso por 1,8× con garantía sin pérdida significa más muestras por dólar, y el encuadre como "stack de inferencia dentro del trainer RL" es el cambio arquitectónico a seguir. Espera ver este patrón (specDec, cabezas MTP, batching estilo vLLM dentro de entrenamiento) aterrizar en TRL, OpenRLHF, y otros stacks RL abiertos dentro de meses. Los que no lo lancen se vuelven los lentos.
Si entrenas con NeMo RL, la aceleración está en tus manos; la integración está en el trainer. Si estás en TRL o un stack RL custom, el camino EAGLE-3 más MTP nativo está documentado lo suficiente para portar — la parte más dura es cablear el backend vLLM en tu fase de rollout sin romper flujo de gradiente. La proyección a 235B es un número simulador, así que no presupuestes capacidad asumiéndolo. El 8B medido es real, y a la escala 8-32B donde pasa la mayoría del fine-tuning, la aceleración es para llevar.
