Nemotron 3 Super de NVIDIA tomó el primer lugar en EnterpriseOps-Gym esta semana, un nuevo benchmark de agentes de 1.150 tareas que ejecuta modelos en entornos completamente interactivos con 512 herramientas invocables — venciendo a DeepSeek v3.2 y Kimi-K2.5 para liderar la categoría open-source. El modelo en sí se lanzó en marzo; el título de leaderboard es la noticia. Pero la historia más interesante es lo que lo hizo posible: este es el primer modelo a escala frontera preentrenado nativamente en precisión de 4 bits.
Nemotron 3 Super tiene 120B totales / 12B activos, un híbrido Mamba-Transformer-MoE con ventana de contexto de 1M tokens. Tres movimientos arquitectónicos apilados aquí. LatentMoE proyecta los embeddings de token a un espacio latente comprimido de baja dimensión antes de enrutar a expertos y de vuelta — permitiendo consultar 4× más expertos por el mismo coste de cómputo. Multi-Token Prediction usa cabezas de pesos compartidos que predicen varios tokens futuros simultáneamente, ganancia declarada hasta 3× en tiempo real para generación estructurada. Más significativo: el preentrenamiento nativo NVFP4 significa que el modelo aprendió a ser preciso dentro de la aritmética de 4 bits desde la primera actualización de gradiente — no cuantizado después de entrenamiento FP16/FP32. NVIDIA reporta aceleración de inferencia 4× en B200 vs FP8 en H100. Puntuación EnterpriseOps-Gym: 27,3 promedio, venciendo a Kimi-K2.5 (2°) y DeepSeek v3.2 (3°). PinchBench: 85,6%. Rendimiento de inferencia: 2,2× más rápido que GPT-OSS-120B, 7,5× más rápido que Qwen3.5-122B en 8k entrada / 64k salida.
El preentrenamiento nativo en baja precisión es lo genuinamente nuevo. Hasta ahora, el movimiento ha sido: entrenar en BF16 o FP8, luego cuantizar después en INT4 o NVFP4 para despliegue, pagando un impuesto de calidad en el camino. Nemotron 3 Super entrenado nativamente en 4 bits significa que las distribuciones de pesos ya son compatibles con el formato de despliegue — sin gimnasia post-hoc, sin fine-tuning para recuperar precisión perdida. Si esto se generaliza, cambia la economía de cómputo de entrenamiento para la próxima generación de modelos abiertos, y permite que el hardware B200 opere más cerca de su presupuesto FLOPS pico. El número 4× B200-vs-H100-FP8 es lo que convierte esto en un cambio generacional más que incremental. Para el paisaje open-source más amplio, DeepSeek y Kimi-K2 han marcado la barra de "frontera abierto" desde finales de 2025; NVIDIA lanzando un modelo que vence a ambos en benchmarks agenticos — bajo licencia permisiva, con inferencia hospedada gratuita — cierra una brecha competitiva cuya cierre tan rápido no era obvio.
Disponible en Hugging Face: `nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16` más variantes de despliegue NVFP4, bajo NVIDIA Nemotron Open Model License. Inferencia hospedada gratuita vía OpenRouter. Vale la pena para cargas de agentes donde 1M de contexto, llamada de herramientas y velocidad de inferencia importan más que puntuaciones de evaluación single-shot brutas. El ángulo de 4 bits nativo es la parte a observar durante los próximos seis meses — si otros labs replican, la curva coste-por-calidad se mueve para todos.
