NVIDIA Polar API प्रॉक्सी से agents प्रशिक्षित करता है, Qwen3.5-4B Codex पर 3.8% से 26.4%

NVIDIA ने Polar (Apache-2.0, GitHub पर NVIDIA-NeMo/ProRL-Agent-Server पर) जारी किया, एक rollout framework जो GRPO reinforcement learning के साथ language agents को प्रशिक्षित करता है उनके agent harnesses को संशोधित किए बिना। आर्किटेक्चर मॉडल API सीमा पर एक gateway प्रॉक्सी है: यह provider APIs (Anthropic, OpenAI, Google) का पता लगाता है, requests को OpenAI Chat Completions प्रारूप में सामान्यीकृत करता है, token-level data और log probabilities कैप्चर करता है, फिर मूल provider आकार में responses लौटाता है। harness में आवश्यक एकमात्र परिवर्तन इसकी मॉडल base URL को gateway पर इंगित करना है। Qwen3.5-4B base पर रिपोर्ट किए गए परिणाम: SWE-Bench Verified pass@1 Codex harness के तहत 3.8% से 26.4% तक जाता है (+22.6 pp), Claude Code पर छोटे लाभ +4.8 pp और Pi पर +6.2 pp के साथ।

harness-विशिष्ट लाभ spread सबसे दिलचस्प बिल्डर संकेत है। Codex सबसे बड़ा lift देखता है क्योंकि Qwen3.5-4B Codex के action protocol और patch submission शैली से अपरिचित शुरू हुआ — GRPO ने base-model आउटपुट वितरण और harness अपेक्षाओं के बीच संरेखण अंतर को बंद कर दिया। Claude Code कम उठा क्योंकि "base model पहले से ही उस harness के साथ अच्छी तरह से संरेखित है", जो कहता है कि Claude Code का interaction प्रारूप प्राकृतिक code-tool संवाद के Codex की तुलना में करीब है। वह delta पूर्व-प्रशिक्षण डेटा संरचना के बारे में भी एक संकेत है: harness सम्मेलन जो प्राकृतिक code review की तरह दिखते हैं, कस्टम action शब्दावलियों वाले harness सम्मेलनों की तुलना में पहले अवशोषित होते हैं। बहु-टर्न प्रक्षेपवक्र पुनर्निर्माण prefix_merging का उपयोग करता है — harness जो अलग API कॉल के रूप में देखता है उसमें सुसंगत श्रृंखलाएँ बनाने के लिए लगातार completions के बीच सख्त token-prefix संबंधों को सत्यापित करना।

बिल्डर्स के लिए इकोसिस्टम रीडिंग: agent प्रशिक्षण harness-decoupled हो रहा है, जो लागत को कम करता है और "इस मॉडल को इस विशिष्ट टूल स्टैक पर बेहतर बनाएँ" की सतह बढ़ाता है। 8×H100s पर 64 GPU-घंटे का ऑफ़लाइन SFT ऑफ़लाइन rollout compute पदचिह्न है — वर्तमान spot दरों पर $200-400 की रेंज में, indie ML बजट के भीतर। Apache-2.0 लाइसेंस और Codex, Claude Code, Qwen Code, Gemini CLI, OpenCode, और Pi के लिए अंतर्निहित समर्थन का अर्थ है कि इन harnesses को चलाने वाली कोई भी टीम harness को फिर से लिखे बिना या forked stack बनाए रखे बिना अपने वास्तविक prod harness के विरुद्ध एक कस्टम मॉडल वैरिएंट प्रशिक्षित कर सकती है। प्रॉक्सी आर्किटेक्चर के द्वितीयक उपयोग भी हैं — eval logging, behavior monitoring, replay debugging — जिसे कोई भी agent प्लेटफ़ॉर्म उठा सकता है।

यदि आप सोमवार सुबह अपने स्वयं के agent मॉडल प्रशिक्षित करते हैं: Polar एक सामान्य base मॉडल से एक गैर-तुच्छ बजट के लिए harness-विशेषीकृत agent वैरिएंट के लिए सबसे साफ़ रास्ता है। यदि आप एक agent harness भेजते हैं: अपने harness को instrument करें ताकि यह विन्यास योग्य मॉडल base URL, विश्वसनीय token IDs, और प्रति-कॉल log probabilities का विज्ञापन करे — यह प्रशिक्षित होने के लिए न्यूनतम इंटरफ़ेस है। agent सुधार का अगला चरण सामान्य आधारों के ऊपर harness-विशिष्ट RL है, और Polar उस लूप कैसे बंद होता है का एक संदर्भ कार्यान्वयन है।

NVIDIA Polar API प्रॉक्सी से agents प्रशिक्षित करता है, Qwen3.5-4B Codex पर 3.8% से 26.4%

और समाचार