Nemotron 3 Super de NVIDIA a pris la première place d'EnterpriseOps-Gym cette semaine, un nouveau benchmark agent de 1 150 tâches qui fait tourner les modèles dans des environnements pleinement interactifs avec 512 outils appelables — battant DeepSeek v3.2 et Kimi-K2.5 pour mener la catégorie open-source. Le modèle lui-même a été livré en mars ; le titre de leaderboard est la nouvelle. Mais l'histoire plus intéressante est ce qui l'a rendu possible : c'est le premier modèle à échelle frontière pré-entraîné nativement en précision 4 bits.
Nemotron 3 Super fait 120B total / 12B actifs, un hybride Mamba-Transformer-MoE avec une fenêtre de contexte de 1M tokens. Trois mouvements architecturaux empilés ici. LatentMoE projette les embeddings de tokens dans un espace latent compressé de basse dimension avant le routage vers les experts puis retour — permettant au modèle de consulter 4× plus d'experts pour le même coût de calcul. Multi-Token Prediction utilise des têtes à poids partagés prévoyant plusieurs tokens futurs simultanément, gain affiché jusqu'à 3× sur le temps réel pour la génération structurée. Plus significatif : le pré-entraînement natif NVFP4 signifie que le modèle a appris à être précis dans l'arithmétique 4 bits dès la toute première mise à jour de gradient — pas quantifié après coup après un entraînement FP16/FP32. NVIDIA rapporte une accélération d'inférence de 4× sur B200 versus FP8 sur H100. Score EnterpriseOps-Gym : 27,3 en moyenne, devant Kimi-K2.5 (2e) et DeepSeek v3.2 (3e). PinchBench : 85,6 %. Débit d'inférence : 2,2× plus rapide que GPT-OSS-120B, 7,5× plus rapide que Qwen3.5-122B à 8k d'entrée / 64k de sortie.
Le pré-entraînement natif en basse précision est la vraie nouveauté. Jusqu'ici, la pratique était : entraîner en BF16 ou FP8, puis quantifier après coup en INT4 ou NVFP4 pour le déploiement, en payant une taxe de qualité au passage. Nemotron 3 Super étant entraîné nativement en 4 bits signifie que les distributions de poids sont déjà compatibles avec le format de déploiement — pas de gymnastique post-hoc, pas de fine-tuning pour récupérer la précision perdue. Si ça se généralise, ça change l'économie compute d'entraînement pour la prochaine génération de modèles ouverts, et ça permet au matériel B200 d'opérer plus près de son budget FLOPS de pointe. Le chiffre 4× B200-vs-H100-FP8 est ce qui fait passer ça en changement de génération plutôt qu'incrémental. Pour le paysage open-source plus large, DeepSeek et Kimi-K2 fixent la barre du « frontière ouvert » depuis fin 2025 ; NVIDIA livrant un modèle qui bat les deux sur les benchmarks agentiques — sous licence permissive, avec inférence hébergée gratuite — referme un écart compétitif dont la fermeture si rapide n'était pas évidente.
Disponible sur Hugging Face : `nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-BF16` plus variantes de déploiement NVFP4, sous NVIDIA Nemotron Open Model License. Inférence hébergée gratuite via OpenRouter. À considérer pour les charges agent où 1M de contexte, l'appel d'outils, et la vitesse d'inférence importent plus que les scores d'évaluation single-shot bruts. L'angle 4 bits natif est la partie à surveiller pour les six prochains mois — si d'autres labos répliquent, la courbe coût-par-qualité bouge pour tout le monde.
