NVIDIA a publié cette semaine un checkpoint unique de 30 milliards de paramètres qui se découpe — sans réentraînement — en variantes 23B ou 12B. Les modèles plus petits ne se dégradent pas comme des fallbacks distillés ; ils sont co-entraînés à l'intérieur du plus grand et extraits par classement d'importance au moment du déploiement. Pour quiconque fait tourner des charges de raisonnement à grande échelle, l'assomption que « modèle plus petit moins cher » et « modèle plus grand plus intelligent » sont des fichiers différents vient de s'assouplir.

La base est Nemotron Nano v3, l'hybride Mamba-Transformer-MoE de NVIDIA (3,6B actifs sur 30B totaux). Le mécanisme de Star Elastic : entraînement élastique par largeur — les composants (canaux d'embedding, têtes d'attention, têtes SSM Mamba, nombre d'experts MoE, dimensions intermédiaires FFN) sont classés par contribution et empaquetés pour que le sous-ensemble contigu le mieux classé reste quand on découpe. Un routeur Gumbel-Softmax apprenable s'entraîne conjointement, sélectionnant ce qui s'active par budget. NVIDIA a testé la compression en profondeur (retirer des couches) et trouvé 95,2 % du baseline ; la compression en largeur atteint 98,1 %, d'où le choix. Elastic-23B obtient 85,63 sur AIME-2025 contre Qwen3-30B-A3B à 80,00. Coût d'entraînement : 360× moins de tokens que pré-entraîner trois variantes séparées, 7× moins que la compression séquentielle par distillation. La quantification imbriquée préserve le découpage en FP8 et NVFP4.

Le pattern de déploiement façon Llama a été « livrer une famille 7B, 13B, 70B — pré-entraînés séparément, distillés séparément, hébergés séparément ». MatFormer (Salesforce) et Megatron Elastic ont exploré des approches imbriquées mais avec classement d'importance fixe et un seul axe d'élagage. Ce qui est nouveau ici : entraînement conjoint avec routeur apprenable sur plusieurs axes simultanément — dimension SSM, canaux d'embedding, nombre d'experts, largeur FFN — plus REAP (Router-Weighted Expert Activation Pruning) qui classe les experts MoE par produit porte × magnitude de sortie plutôt que par fréquence de routage. Pour les stacks d'agents qui routent entre appels rapides-pas-chers et lents-profonds sur des endpoints séparés, l'assomption architecturale que ce sont des modèles différents s'effrite. Un checkpoint, un cadran de latence.

Disponible sur Hugging Face : `nvidia/NVIDIA-Nemotron-Labs-3-Elastic-30B-A3B` en variantes BF16, FP8 et NVFP4. À considérer pour les charges de raisonnement H100/H200 où vous changez actuellement de modèle pour les compromis coût/latence. Vérifier la licence sur la fiche du modèle avant déploiement commercial — les variantes Nemotron ont été publiées sous des licences mixtes, et les notes de publication n'incluaient pas de déclaration open-source explicite.