NVIDIA Polar entrena agentes vía proxy API, Qwen3.5-4B de 3.8% a 26.4% en Codex

NVIDIA lanzó Polar (Apache-2.0, en GitHub en NVIDIA-NeMo/ProRL-Agent-Server), un framework de rollout que entrena agentes de lenguaje con reinforcement learning GRPO sin modificar sus harnesses de agente. La arquitectura es un gateway proxy en la frontera de la API del modelo: detecta APIs de provider (Anthropic, OpenAI, Google), normaliza requests al formato OpenAI Chat Completions, captura datos a nivel de token y log probabilities, y retorna respuestas en la forma original del provider. El único cambio requerido al harness es apuntar su URL base de modelo al gateway. Resultados reportados en un base Qwen3.5-4B: SWE-Bench Verified pass@1 va de 3.8% a 26.4% bajo el harness Codex (+22.6 pp), con ganancias menores de +4.8 pp en Claude Code y +6.2 pp en Pi.

El spread de ganancias específico al harness es la señal de constructor más interesante. Codex ve el lift más grande porque Qwen3.5-4B partió no familiar con el protocolo de acción de Codex y el estilo de submisión de patch — GRPO cerró la brecha de alineación entre la distribución de salida del base-model y las expectativas del harness. Claude Code levantó menos porque "el base model ya está bien alineado con ese harness", lo cual dice que el formato de interacción de Claude Code está más cerca del diálogo code-tool natural que el de Codex. Ese delta también es una señal sobre la composición de datos de pretraining: las convenciones de harness que se ven como natural code review son absorbidas más temprano que las convenciones de harness con vocabularios de acción custom. La reconstrucción de trayectoria multi-turno usa prefix_merging — verificar relaciones estrictas de prefijo de token entre completaciones consecutivas para formar cadenas coherentes a través de lo que el harness ve como llamadas API separadas.

La lectura de ecosistema para constructores: el entrenamiento de agentes se está volviendo desacoplado del harness, lo que baja el costo y aumenta la superficie de "hacer este modelo mejor en esta pila específica de herramientas". 64 GPU-horas de SFT offline en 8×H100s es la huella compute de rollout offline — en el rango $200-400 a tasas spot actuales, bien dentro del presupuesto ML indie. La licencia Apache-2.0 y el soporte built-in para Codex, Claude Code, Qwen Code, Gemini CLI, OpenCode, y Pi significa que cualquier equipo corriendo estos harnesses puede entrenar una variante de modelo custom contra su harness prod actual sin reescribir el harness ni mantener una stack forkeada. La arquitectura proxy también tiene usos secundarios — logging de eval, monitoreo de comportamiento, debugging por replay — que cualquier plataforma de agente podría levantar.

Si entrenas tus propios modelos de agente el lunes por la mañana: Polar es el camino más limpio de un base model genérico a una variante de agente especializada por harness para un presupuesto no-trivial. Si envías un harness de agente: instrumenta tu harness para que anuncie URL base de modelo configurable, IDs de token confiables, y log probabilities por llamada — esa es la interfaz mínima para ser entrenable. La próxima fase de mejora de agentes es RL específico al harness sobre bases genéricas, y Polar es una implementación de referencia de cómo se cierra ese loop.

NVIDIA Polar entrena agentes vía proxy API, Qwen3.5-4B de 3.8% a 26.4% en Codex

Más noticias