Nemotron 3 Super da NVIDIA tomou o primeiro lugar no EnterpriseOps-Gym esta semana, um novo benchmark de agentes de 1.150 tarefas que roda modelos em ambientes totalmente interativos com 512 ferramentas invocáveis — vencendo DeepSeek v3.2 e Kimi-K2.5 para liderar a categoria open-source. O modelo em si foi lançado em março; o título do leaderboard é a notícia. Mas a história mais interessante é o que o tornou possível: este é o primeiro modelo em escala de fronteira pré-treinado nativamente em precisão de 4 bits.
Nemotron 3 Super tem 120B totais / 12B ativos, um híbrido Mamba-Transformer-MoE com janela de contexto de 1M tokens. Três movimentos arquitetônicos empilhados aqui. LatentMoE projeta embeddings de token em um espaço latente comprimido de baixa dimensão antes do roteamento para experts e de volta — permitindo consultar 4× mais experts pelo mesmo custo de computação. Multi-Token Prediction usa cabeças de pesos compartilhados prevendo vários tokens futuros simultaneamente, ganho declarado de até 3× em tempo real para geração estruturada. Mais significativo: o pré-treino nativo NVFP4 significa que o modelo aprendeu a ser preciso dentro da aritmética de 4 bits desde a primeira atualização de gradiente — não quantizado após treinamento FP16/FP32. NVIDIA relata aceleração de inferência 4× em B200 vs FP8 em H100. Pontuação EnterpriseOps-Gym: 27,3 médio, vencendo Kimi-K2.5 (2º) e DeepSeek v3.2 (3º). PinchBench: 85,6%. Throughput de inferência: 2,2× mais rápido que GPT-OSS-120B, 7,5× mais rápido que Qwen3.5-122B em 8k entrada / 64k saída.
Pré-treino nativo em baixa precisão é o genuinamente novo. Até agora, a prática foi: treinar em BF16 ou FP8, depois quantizar pós-hoc em INT4 ou NVFP4 para deploy, pagando um imposto de qualidade no caminho. Nemotron 3 Super sendo treinado nativamente em 4 bits significa que as distribuições de pesos já são compatíveis com o formato de deploy — sem ginástica pós-hoc, sem fine-tuning para recuperar precisão perdida. Se isso generalizar, muda a economia de computação de treinamento para a próxima geração de modelos abertos, e permite que o hardware B200 opere mais perto de seu orçamento de FLOPS de pico. O número 4× B200-vs-H100-FP8 é o que torna isso uma mudança geracional em vez de incremental. Para o panorama open-source mais amplo, DeepSeek e Kimi-K2 estabeleceram o nível do "fronteira aberto" desde o final de 2025; a NVIDIA lançando um modelo que vence ambos em benchmarks agênticos — sob licença permissiva, com inferência hospedada gratuita — fecha uma lacuna competitiva cujo fechamento tão rápido não era óbvio.
Disponível no Hugging Face: `nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16` mais variantes de deploy NVFP4, sob NVIDIA Nemotron Open Model License. Inferência hospedada gratuita via OpenRouter. Vale a pena para cargas de agentes onde 1M de contexto, chamada de ferramentas e velocidade de inferência importam mais que pontuações de avaliação single-shot brutas. O ângulo de 4 bits nativo é a parte a observar pelos próximos seis meses — se outros labs replicarem, a curva custo-por-qualidade se move para todos.
