NVIDIA Research 已经把 EAGLE-3 推测解码直接整合进 NeMo RL,后端用 vLLM,在 8B 上实测 rollout 生成提速 1.8×,在 235B 上由模拟器外推出 2.5× 的端到端加速。工作使用 GRPO(Generative Reward Policy Optimization),硬件是 32 张 GB200,跨 8 个 GB200 NVL72 节点。真正有意思的不是加速数字 —— 而是他们把 RL rollout 阶段当成生成受限的问题,并把推理栈的优化拿来对症下药。
无损是承重的论点。团队的论证靠数学等价:对目标模型分布做拒绝采样,可证明地等价于该模型的自回归生成。他们用经验证据校验:在自回归与推测两种制度下贯穿训练追踪 AIME-2024 验证准确率 —— 两条曲线重合。报告的接受长度(每个 draft 被核验通过的 token 数)在两种工作负载上分别是 2.47 与 2.05(RL-Think 用于继续训练推理模型,RL-Zero 用于从基座起步)。235B 的 2.5× 是通过一个对 GB200 级算力、内存与互连特性做过校准的专有 GPU 性能模拟器外推得到的 —— 不是实测。论文索引:arXiv:2604.26779。
对 RL 训练基础设施,这是一次实打实的效率推进。Rollout 生成是现代 RL 流水线里的主要时间黑洞 —— 一个推理 rollout 可能是几万个 token,而每一步梯度更新会重复成千上万条轨迹。在无损保证下把这部分砍 1.8×,意味着每美元更多样本;把"推理栈嵌入 RL trainer"的视角作为架构性的转向值得追踪。预计这套模式(specDec、MTP 头、训练里的 vLLM 风格批处理)会在几个月内落到 TRL、OpenRLHF 等开放 RL 栈里。不交付的就成了慢的那一家。
如果你用 NeMo RL 训练,这个加速已经到手;集成就在 trainer 里。如果你在 TRL 或自研 RL 栈上,EAGLE-3 加原生 MTP 的路径文档化得够清楚足以移植 —— 难的是把 vLLM 后端接进 rollout 阶段而不破坏梯度流。235B 的投影是模拟器数字,别按它来规划容量。8B 的实测数字是真实的,在 8-32B 这个大多数 fine-tuning 实际发生的尺度上,这份加速是可带回家的。
