NVIDIA Polar通过API代理训练agent,Qwen3.5-4B在Codex上从3.8%到26.4%

NVIDIA发布了Polar(Apache-2.0许可,GitHub在NVIDIA-NeMo/ProRL-Agent-Server),一个rollout框架,使用GRPO强化学习训练语言agent,无需修改其agent harnesses。架构是模型API边界的网关代理:它检测provider API(Anthropic、OpenAI、Google),将请求归一化为OpenAI Chat Completions格式,捕获token级别数据和log probabilities,然后以原始provider形状返回响应。对harness唯一要求的更改是将其模型base URL指向网关。报告的Qwen3.5-4B base结果:在Codex harness下SWE-Bench Verified pass@1从3.8%到26.4%(+22.6 pp),在Claude Code上较小的+4.8 pp增益,在Pi上+6.2 pp。

特定于harness的增益spread是最有趣的构建者信号。Codex看到最大的lift,因为Qwen3.5-4B开始时对Codex的action protocol和patch submission style不熟悉——GRPO关闭了base-model输出分布与harness期望之间的对齐差距。Claude Code提升较少,因为"base model已经与该harness很好地对齐",这表明Claude Code的交互格式比Codex更接近自然code-tool对话。这个delta也是关于预训练数据组成的信号:看起来像自然code review的harness约定比具有自定义action词汇的harness约定更早被吸收。多轮轨迹重建使用prefix_merging——验证连续completion之间严格的token前缀关系,以在harness看作单独API调用的内容上形成连贯链。

构建者的生态系统解读:agent训练正变得与harness解耦,这降低了成本并增加了"让这个模型更擅长这个特定工具栈"的表面。在8×H100上64 GPU小时的离线SFT是离线rollout计算占用——按当前spot费率$200-400范围,完全在indie ML预算内。Apache-2.0许可证和对Codex、Claude Code、Qwen Code、Gemini CLI、OpenCode和Pi的内置支持意味着任何运行这些harnesses的团队都可以针对其实际prod harness训练自定义模型变体,而无需重写harness或维护forked stack。代理架构还有次要用途——eval日志记录、行为监控、replay调试——任何agent平台都可以借鉴。

如果你周一早上训练自己的agent模型:Polar是从通用base模型到harness专门化agent变体的最干净路径,预算不繁重。如果你交付agent harness:对你的harness进行instrumentation,使其广告可配置的模型base URL、可靠的token ID和每次调用的log probabilities——这是可训练的最低接口。agent改进的下一阶段是通用base之上的harness特定RL,Polar是该loop如何关闭的参考实现。

NVIDIA Polar通过API代理训练agent,Qwen3.5-4B在Codex上从3.8%到26.4%

更多新闻