NVIDIA Polar treina agentes via proxy API, Qwen3.5-4B de 3.8% para 26.4% em Codex

A NVIDIA lançou Polar (Apache-2.0, no GitHub em NVIDIA-NeMo/ProRL-Agent-Server), um framework de rollout que treina agentes de linguagem com reinforcement learning GRPO sem modificar seus harnesses de agente. A arquitetura é um gateway proxy na fronteira da API do modelo: detecta APIs de provider (Anthropic, OpenAI, Google), normaliza requests para formato OpenAI Chat Completions, captura dados a nível de token e log probabilities, e retorna respostas na forma original do provider. A única mudança requerida ao harness é apontar sua URL base de modelo para o gateway. Resultados reportados em um base Qwen3.5-4B: SWE-Bench Verified pass@1 vai de 3.8% para 26.4% sob o harness Codex (+22.6 pp), com ganhos menores de +4.8 pp em Claude Code e +6.2 pp em Pi.

O spread de ganhos específico ao harness é o sinal de construtor mais interessante. Codex vê o lift mais grande porque Qwen3.5-4B partiu não familiar com o protocolo de ação do Codex e o estilo de submissão de patch — GRPO fechou a lacuna de alinhamento entre a distribuição de saída do base-model e as expectativas do harness. Claude Code levantou menos porque "o base model já está bem alinhado com esse harness", o que diz que o formato de interação do Claude Code está mais perto do diálogo code-tool natural que o do Codex. Esse delta também é um sinal sobre a composição de dados de pretraining: convenções de harness que parecem natural code review são absorvidas mais cedo que convenções de harness com vocabulários de ação custom. A reconstrução de trajetória multi-turno usa prefix_merging — verificar relações estritas de prefixo de token entre completações consecutivas para formar cadeias coerentes através do que o harness vê como chamadas API separadas.

A leitura de ecossistema para construtores: o treinamento de agentes está se tornando desacoplado do harness, o que baixa o custo e aumenta a superfície de "fazer esse modelo melhor nessa pilha específica de ferramentas". 64 GPU-horas de SFT offline em 8×H100s é a pegada compute de rollout offline — na faixa $200-400 nas taxas spot atuais, bem dentro do orçamento ML indie. A licença Apache-2.0 e o suporte built-in para Codex, Claude Code, Qwen Code, Gemini CLI, OpenCode, e Pi significa que qualquer time rodando esses harnesses pode treinar uma variante de modelo custom contra seu harness prod atual sem reescrever o harness ou manter uma stack forkada. A arquitetura proxy também tem usos secundários — logging de eval, monitoramento de comportamento, debugging por replay — que qualquer plataforma de agente poderia levantar.

Se você treina seus próprios modelos de agente segunda de manhã: Polar é o caminho mais limpo de um base model genérico para uma variante de agente especializada por harness para um orçamento não-trivial. Se você envia um harness de agente: instrumente seu harness para que anuncie URL base de modelo configurável, IDs de token confiáveis, e log probabilities por chamada — essa é a interface mínima para ser treinável. A próxima fase de melhoria de agentes é RL específico ao harness sobre bases genéricas, e Polar é uma implementação de referência de como esse loop se fecha.

NVIDIA Polar treina agentes via proxy API, Qwen3.5-4B de 3.8% para 26.4% em Codex

Mais notícias