NVIDIA Research 已經把 EAGLE-3 推測解碼直接整合進 NeMo RL,後端用 vLLM,在 8B 上實測 rollout 生成提速 1.8×,在 235B 上由模擬器外推出 2.5× 的端到端加速。工作使用 GRPO(Generative Reward Policy Optimization),硬體是 32 張 GB200,跨 8 個 GB200 NVL72 節點。真正有意思的不是加速數字 —— 而是他們把 RL rollout 階段當成生成受限的問題,並把推論棧的最佳化拿來對症下藥。

無失是承重的論點。團隊的論證靠數學等價:對目標模型分布做拒絕取樣,可證明地等價於該模型的自迴歸生成。他們用經驗證據校驗:在自迴歸與推測兩種制度下貫穿訓練追蹤 AIME-2024 驗證準確率 —— 兩條曲線重疊。報告的接受長度(每個 draft 被核驗通過的 token 數)在兩種工作負載上分別是 2.47 與 2.05(RL-Think 用於繼續訓練推理模型,RL-Zero 用於從基座起步)。235B 的 2.5× 是透過一個對 GB200 級算力、記憶體與互連特性做過校準的專有 GPU 效能模擬器外推得到的 —— 不是實測。論文索引:arXiv:2604.26779。

對 RL 訓練基礎設施,這是一次實打實的效率推進。Rollout 生成是現代 RL 管線裡的主要時間黑洞 —— 一個推理 rollout 可能是幾萬個 token,而每一步梯度更新會重複成千上萬條軌跡。在無失保證下把這部分砍 1.8×,意味著每美元更多樣本;把「推論棧嵌入 RL trainer」的視角作為架構性的轉向值得追蹤。預計這套模式(specDec、MTP 頭、訓練裡的 vLLM 風格批處理)會在幾個月內落到 TRL、OpenRLHF 等開放 RL 棧裡。不交付的就成了慢的那一家。

如果你用 NeMo RL 訓練,這個加速已經到手;整合就在 trainer 裡。如果你在 TRL 或自研 RL 棧上,EAGLE-3 加原生 MTP 的路徑文件化得夠清楚足以移植 —— 難的是把 vLLM 後端接進 rollout 階段而不破壞梯度流。235B 的投影是模擬器數字,別按它來規劃容量。8B 的實測數字是真實的,在 8-32B 這個大多數 fine-tuning 實際發生的尺度上,這份加速是可帶回家的。