NVIDIA के Nemotron 3 Super ने इस हफ्ते EnterpriseOps-Gym पर top spot लिया, यह एक नया 1,150-task agent benchmark है जो models को पूरी तरह interactive environments में 512 callable tools के साथ चलाता है — DeepSeek v3.2 और Kimi-K2.5 को हराकर open-source category lead करते हुए। Model खुद मार्च में ship हुआ था; leaderboard win news है। लेकिन ज्यादा दिलचस्प कहानी यह है कि इसे क्या संभव बनाया: यह 4-bit precision में natively pretrained पहला frontier-scale model है।

Nemotron 3 Super 120B total / 12B active parameters का है, hybrid Mamba-Transformer-MoE 1M-token context window के साथ। तीन architectural moves यहाँ stacked हैं। LatentMoE token embeddings को experts तक routing से पहले compressed low-rank latent space में project करता है और वापस — model को same compute cost पर 4× ज्यादा experts consult करने देता है। Multi-Token Prediction shared-weight heads का उपयोग करता है जो कई future tokens एक साथ predict करते हैं, structured generation में 3× तक wall-clock speedup का दावा। सबसे महत्वपूर्ण: NVFP4 native pretraining का मतलब है कि model ने पहले gradient update से 4-bit arithmetic के भीतर accurate होना सीखा — FP16/FP32 training के बाद quantize नहीं किया गया। NVIDIA H100 पर FP8 की तुलना में B200 पर 4× inference speedup report करता है। EnterpriseOps-Gym score: 27.3 average, Kimi-K2.5 (2nd) और DeepSeek v3.2 (3rd) को हराते हुए। PinchBench: 85.6%। Inference throughput: 8k input / 64k output पर GPT-OSS-120B से 2.2× faster, Qwen3.5-122B से 7.5× faster।

Native low-precision pretraining वास्तव में नई चीज है। अब तक move रहा है: BF16 या FP8 में train करो, फिर deployment के लिए INT4 या NVFP4 में post-hoc quantize करो, रास्ते में quality tax देते हुए। Nemotron 3 Super natively 4-bit में trained होने का मतलब है weight distributions पहले से deployment format के साथ compatible हैं — कोई post-hoc gymnastics नहीं, खोई accuracy recover करने के लिए कोई fine-tuning नहीं। अगर यह generalize हो जाए, यह अगली generation के open models के लिए training-compute economics बदलता है, और B200 hardware को इसके peak FLOPS budget के करीब operate करने देता है। 4× B200-vs-H100-FP8 number ही इसे incremental के बजाय generational shift बनाता है। व्यापक open-source landscape के लिए, DeepSeek और Kimi-K2 ने 2025 के अंत से "frontier open" का bar set किया है; NVIDIA का agentic benchmarks पर दोनों को हराने वाला model launch करना — permissive license के तहत, free hosted inference के साथ — एक competitive gap close करता है जिसका इतना जल्दी close होना obvious नहीं था।

Hugging Face पर available: `nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16` plus NVFP4 deployment variants, NVIDIA Nemotron Open Model License के तहत। OpenRouter के माध्यम से free hosted inference। Agent workloads के लिए worth है जहाँ 1M context, tool calling, और inference speed raw single-shot eval scores से ज्यादा matter करते हैं। Native 4-bit angle अगले छह महीनों के लिए watch करने वाला part है — अगर अन्य labs replicate करते हैं, cost-per-quality curve सभी के लिए shift होती है।