NVIDIA Research ने EAGLE-3 स्पेकुलेटिव डिकोडिंग को सीधे NeMo RL में vLLM बैकएंड के साथ एकीकृत किया है, 8B पर मापी हुई 1.8× रोलआउट-जनरेशन तेज़ी और 235B पर सिमुलेटर-प्रक्षेपित 2.5× एंड-टू-एंड तेज़ी देती है। काम GRPO (Generative Reward Policy Optimization) का उपयोग करता है और 8 GB200 NVL72 नोड्स पर 32 GB200 GPUs पर चलता है। दिलचस्प हिस्सा तेज़ी का नंबर नहीं है — यह है कि वे RL रोलआउट चरण को जनरेशन-बाउंड समस्या मानते हैं और इनफ़रेंस-स्टैक ऑप्टिमाइज़ेशन्स लागू करते हैं।

बिना-नुक़सान भार-वहन दावा है। टीम गणितीय समतुल्यता तर्क करती है: टार्गेट मॉडल के वितरण के विरुद्ध रिजेक्शन सैंपलिंग प्रमाण्य रूप से उस मॉडल से ऑटोरीग्रेसिव जनरेशन के समतुल्य है। वे प्रायोगिक रूप से सत्यापित करते हैं ऑटोरीग्रेसिव और स्पेकुलेटिव दोनों व्यवस्थाओं के तहत ट्रेनिंग भर AIME-2024 वैलिडेशन सटीकता ट्रैक करके — वक्र ओवरले होते हैं। रिपोर्ट की गई स्वीकृति लंबाई (प्रति draft सत्यापित tokens) दो वर्कलोड पर 2.47 और 2.05 हैं (RL-Think निरंतर रीज़निंग ट्रेनिंग के लिए, RL-Zero बेस से शुरुआत के लिए)। 235B पर 2.5× GB200-श्रेणी के compute, मेमोरी और interconnect के लिए कैलिब्रेट किए एक मालिकाना GPU परफ़ॉर्मेंस सिमुलेटर के माध्यम से एक्स्ट्रापोलेट किया गया है — मापा नहीं गया। पेपर संदर्भ: arXiv:2604.26779।

RL ट्रेनिंग इन्फ़्रा के लिए, यह एक वास्तविक दक्षता क़दम है। रोलआउट जनरेशन आधुनिक RL पाइपलाइनों में प्रमुख समय का अड्डा है — एक रीज़निंग रोलआउट हज़ारों tokens का हो सकता है, और हर ग्रेडिएंट स्टेप पर हज़ारों ट्रैजेक्टरी पर दोहराया जाता है। बिना-नुक़सान गारंटी के साथ इसे 1.8× काटने का मतलब है प्रति डॉलर अधिक नमूने, और "RL trainer के अंदर इनफ़रेंस स्टैक" फ़्रेमिंग वह आर्किटेक्चरल बदलाव है जिसे ट्रैक करना चाहिए। उम्मीद करें कि यह पैटर्न (specDec, MTP heads, ट्रेनिंग में vLLM-शैली बैचिंग) महीनों में TRL, OpenRLHF, और अन्य ओपन RL स्टैक्स में आ जाए। जो नहीं भेजेंगे वे धीमे हो जाएँगे।

अगर आप NeMo RL के साथ ट्रेन करते हैं, तेज़ी आपके हाथ में है; एकीकरण trainer में है। अगर आप TRL या कस्टम RL स्टैक पर हैं, EAGLE-3 प्लस नेटिव MTP पथ पोर्ट करने के लिए पर्याप्त रूप से दस्तावेज़ीकृत है — कठिन हिस्सा vLLM बैकएंड को रोलआउट चरण में बिना ग्रेडिएंट प्रवाह तोड़े जोड़ना है। 235B प्रक्षेपण सिमुलेटर संख्या है, इसलिए उसे मान कर क्षमता का बजट न बनाएँ। 8B मापी हुई संख्या असली है, और 8-32B स्केल पर जहाँ अधिकांश fine-tuning होती है, तेज़ी टेक-होम है।