NVIDIA Research a intégré le décodage spéculatif EAGLE-3 directement dans NeMo RL avec un backend vLLM, livrant une accélération mesurée de 1,8× sur la génération de rollout à 8B et une accélération end-to-end projetée par simulateur de 2,5× à 235B. Le travail utilise GRPO (Generative Reward Policy Optimization) et tourne sur 32 GPU GB200 répartis sur 8 nœuds GB200 NVL72. L'intéressant n'est pas le chiffre d'accélération — c'est qu'ils traitent la phase de rollout RL comme un problème borné par la génération et y appliquent les optimisations du stack inférence.
L'absence de perte est l'affirmation porteuse. L'équipe argumente l'équivalence mathématique : l'échantillonnage par rejet contre la distribution du modèle cible est prouvablement équivalent à la génération autorégressive depuis ce modèle. Ils valident empiriquement en suivant la précision de validation sur AIME-2024 tout le long de l'entraînement sous les régimes autorégressif et spéculatif — les courbes se superposent. Les longueurs d'acceptation rapportées (tokens vérifiés par draft) sont 2,47 et 2,05 sur deux charges de travail (RL-Think pour entraînement de raisonnement continu, RL-Zero pour départ depuis la base). Le 2,5× à 235B est extrapolé via un simulateur GPU propriétaire calibré sur le compute, la mémoire et l'interconnect classe GB200 — pas mesuré. Référence papier : arXiv:2604.26779.
Pour l'infra d'entraînement RL, c'est un vrai gain d'efficience. La génération de rollout est le goulot temporel dominant des pipelines RL modernes — un rollout de raisonnement peut faire des dizaines de milliers de tokens, répétés sur des milliers de trajectoires par pas de gradient. Couper ça par 1,8× avec une garantie sans perte signifie plus d'échantillons par dollar, et le cadrage « stack d'inférence dans le trainer RL » est le glissement architectural à suivre. Attends-toi à voir ce pattern (specDec, têtes MTP, batching style vLLM dans l'entraînement) atterrir dans TRL, OpenRLHF et autres stacks RL ouverts d'ici quelques mois. Ceux qui ne livrent pas deviennent les lents.
Si tu entraînes avec NeMo RL, l'accélération est entre tes mains; l'intégration est dans le trainer. Si tu es sur TRL ou un stack RL custom, le chemin EAGLE-3 plus MTP natif est documenté assez bien pour porter — la partie plus dure est de câbler le backend vLLM dans ta phase de rollout sans casser le flot du gradient. La projection à 235B est un chiffre simulateur, donc ne dimensionne pas la capacité en présumant cela. Le 8B mesuré est réel, et à l'échelle 8-32B où la plupart du fine-tuning se passe, l'accélération est à emporter.
