NVIDIA Polar透過API代理訓練agent,Qwen3.5-4B在Codex上從3.8%到26.4%

NVIDIA發布了Polar(Apache-2.0授權,GitHub在NVIDIA-NeMo/ProRL-Agent-Server),一個rollout框架,使用GRPO強化學習訓練語言agent,無需修改其agent harnesses。架構是模型API邊界的閘道代理:它偵測provider API(Anthropic、OpenAI、Google),將請求歸一化為OpenAI Chat Completions格式,捕獲token級別資料和log probabilities,然後以原始provider形狀回傳回應。對harness唯一要求的更改是將其模型base URL指向閘道。回報的Qwen3.5-4B base結果:在Codex harness下SWE-Bench Verified pass@1從3.8%到26.4%(+22.6 pp),在Claude Code上較小的+4.8 pp增益,在Pi上+6.2 pp。

特定於harness的增益spread是最有趣的建構者訊號。Codex看到最大的lift,因為Qwen3.5-4B開始時對Codex的action protocol和patch submission style不熟悉——GRPO關閉了base-model輸出分佈與harness期望之間的對齊差距。Claude Code提升較少,因為「base model已經與該harness很好地對齊」,這表明Claude Code的互動格式比Codex更接近自然code-tool對話。這個delta也是關於預訓練資料組成的訊號:看起來像自然code review的harness約定比具有自訂action詞彙的harness約定更早被吸收。多輪軌跡重建使用prefix_merging——驗證連續completion之間嚴格的token前綴關係,以在harness看作單獨API呼叫的內容上形成連貫鏈。

建構者的生態系統解讀:agent訓練正變得與harness解耦,這降低了成本並增加了「讓這個模型更擅長這個特定工具棧」的表面。在8×H100上64 GPU小時的離線SFT是離線rollout計算佔用——按當前spot費率$200-400範圍,完全在indie ML預算內。Apache-2.0授權和對Codex、Claude Code、Qwen Code、Gemini CLI、OpenCode和Pi的內建支援意味著任何執行這些harnesses的團隊都可以針對其實際prod harness訓練自訂模型變體,而無需重寫harness或維護forked stack。代理架構還有次要用途——eval日誌記錄、行為監控、replay偵錯——任何agent平台都可以借鑒。

如果你週一早上訓練自己的agent模型:Polar是從通用base模型到harness專門化agent變體的最乾淨路徑,預算不繁重。如果你交付agent harness:對你的harness進行instrumentation,使其廣告可配置的模型base URL、可靠的token ID和每次呼叫的log probabilities——這是可訓練的最低介面。agent改進的下一階段是通用base之上的harness特定RL,Polar是該loop如何關閉的參考實作。

NVIDIA Polar透過API代理訓練agent,Qwen3.5-4B在Codex上從3.8%到26.4%

更多新聞