NVIDIA Polar entraîne des agents via proxy API, Qwen3.5-4B de 3,8% à 26,4% sur Codex

NVIDIA a sorti Polar (Apache-2.0, sur GitHub à NVIDIA-NeMo/ProRL-Agent-Server), un cadre de rollout qui entraîne des agents de langage avec du reinforcement learning GRPO sans modifier leurs harnesses d'agent. L'architecture est une gateway proxy à la frontière de l'API du modèle : elle détecte les APIs de provider (Anthropic, OpenAI, Google), normalise les requêtes au format OpenAI Chat Completions, capture les données token-level pis les log probabilities, pis retourne les réponses dans la forme originale du provider. Le seul changement requis au harness, c'est pointer son URL de base de modèle vers la gateway. Résultats rapportés sur un base Qwen3.5-4B : SWE-Bench Verified pass@1 passe de 3,8% à 26,4% sous le harness Codex (+22,6 pp), avec des gains plus petits de +4,8 pp sur Claude Code pis +6,2 pp sur Pi.

Le spread de gains spécifique au harness, c'est le signal bâtisseur le plus intéressant. Codex voit le plus gros lift parce que Qwen3.5-4B partait pas familier avec le protocole d'action de Codex pis le style de soumission de patch — GRPO a fermé le gap d'alignement entre la distribution de sortie du base-model pis les attentes du harness. Claude Code a lifté moins parce que « le base model est déjà bien aligné avec ce harness », ce qui dit que le format d'interaction de Claude Code est plus proche du dialogue code-tool naturel que celui de Codex. Ce delta, c'est aussi un signal sur la composition des données de pretraining : les conventions de harness qui ressemblent à du natural code review sont absorbées plus tôt que les conventions de harness avec des vocabulaires d'action customs. La reconstruction de trajectoire multi-tours utilise prefix_merging — vérifier les relations strictes de préfixe de token entre completions consécutives pour former des chaînes cohérentes à travers ce que le harness voit comme des appels API séparés.

La lecture écosystème pour les bâtisseurs : l'entraînement d'agents devient découplé du harness, ce qui baisse le coût pis augmente la surface de « rendre ce modèle meilleur à cette pile d'outils spécifique ». 64 GPU-heures de SFT offline sur 8×H100s, c'est l'empreinte compute de rollout offline — dans la gamme $200-400 aux taux spot courants, bien dans le budget ML indie. La licence Apache-2.0 pis le support built-in pour Codex, Claude Code, Qwen Code, Gemini CLI, OpenCode, pis Pi veut dire que n'importe quelle équipe qui roule ces harnesses peut entraîner une variante de modèle custom contre leur harness prod actuel sans réécrire le harness ni maintenir une stack forkée. L'architecture proxy a aussi des usages secondaires — logging d'eval, monitoring de comportement, debugging par replay — que n'importe quelle plateforme d'agent pourrait lift.

Si tu entraînes tes propres modèles d'agent lundi matin : Polar, c'est le chemin le plus propre d'un base model générique à une variante d'agent spécialisée par harness pour un budget non-trivial. Si tu ships un harness d'agent : instrumente ton harness pour qu'il advertise URL de base de modèle configurable, IDs de tokens fiables, pis log probabilities par-appel — c'est l'interface minimum pour être trainable. La prochaine phase d'amélioration d'agents, c'est de la RL spécifique au harness par-dessus des bases génériques, pis Polar est une implémentation de référence de comment cette boucle se ferme.

NVIDIA Polar entraîne des agents via proxy API, Qwen3.5-4B de 3,8% à 26,4% sur Codex

Plus de nouvelles