NVIDIA a sorti Nemotron-Labs-Diffusion (NLD), une famille de LLM open-weights à 3B, 8B, et 14B qui supporte trois modes de décodage depuis un single checkpoint sans modifications architecturales. Mode AR : génération left-to-right standard avec attention causale, un token par forward. Mode diffusion : denoise des multiple tokens par bloc en parallel avec attention bidirectionnelle dans les blocs. Mode self-speculation : le pathway diffusion draft k tokens, le pathway AR les vérifie dans une deuxième pass, acceptant le longest matching prefix. Variants base, instruct, et vision-language. License NVIDIA Nemotron Open Model. La collection HuggingFace est live. Le modèle 8B en self-speculation avec LoRA enhancement hit 5,99 tokens par forward à 62,81% d'accuracy moyenne à travers HumanEval, MBPP, GSM8K, Math500, MMLU et autres — versus 63,61% pour le baseline AR et 62,75% pour Qwen3-8B. 4x throughput vs Qwen3-8B sur un GB200 ; 2,4x plus rapide que Qwen3-8B-Eagle3 à batch size 1. Initialisé depuis Ministral3 base, trained 1 trillion tokens AR-only puis 300 milliards tokens sur l'objectif joint ℒ = ℒ_AR + α·ℒ_diff avec α = 0,3, sur 256 H100s.

Le bet architectural c'est la capacité tri-mode en single-checkpoint. Sans training joint, tu ships deux modèles (un AR, un diffusion) et tu route au inference time, avec l'overhead opérationnel que ça implique. Avec le training joint à α = 0,3, NVIDIA report que les deux objectifs rise et fall ensemble — un set de weights serve les deux, et le pathway self-speculation utilise les deux en tandem. L'acceptance length c'est ce qui drive le throughput : 6,82 tokens par draft step avec LoRA versus 2,75 pour Eagle3 c'est le gap qui convertit en 5,99x tokens par forward. Le fine-tuning LoRA améliore l'acceptance de 14,4 à 32,5 percent depending sur le scale. Le mode diffusion-only hit 2,57x TPF à 63,18 percent d'accuracy — compétitif sans le verifier AR — mais self-speculation avec LoRA c'est là que le real speedup vit. Le découplage entre l'objectif de training et le mode de décodage c'est ce qui est nouveau : les diffusion LMs antérieurs (Plaid, approches score-based) pouvaient pas switcher back vers AR cleanly. NLD le peut.

Pourquoi ça matter pour les builders. Le speculative decoding est une optimisation d'inference connue depuis 2023, mais les implémentations typiques requièrent un draft model séparé (small Llama qui draft pour large Llama, etc.) — training et maintenance de deux modèles. NVIDIA fold le drafting dans le même checkpoint. 4x throughput GB200 à parity accuracy c'est la réduction de coût d'inference : même quality de modèle, 25% wall-clock ou 4x throughput depending sur l'axe que t'optimises. Pour de la quality classe-Claude/GPT/Gemini à un quart du compute d'inference, c'est le tradeoff architecture-vs-vendor-stack qui était promis depuis des années. Open weights sur HuggingFace veut dire déployer toi-même au lieu de payer les marges API — matériel si ton workload est inference-cost bound. L'initialisation depuis Ministral3 est notable aussi : NVIDIA qui bâtit explicitly sur la lignée Mistral (on a couvert l'acquisition Emmi de Mistral ce matin, et le fait que NLD-3B/8B/14B est initialisé depuis Ministral3 veut dire que les weights underlying ont commencé Mistral et fini NVIDIA). L'écosystème modèle se mixe à travers les vendors au niveau weight-initialization.

Lundi matin : si t'as des workloads production inference-cost-bound sur Qwen3-8B, Llama-3.x-8B, Mistral 7B-class, ou n'importe quel LM mid-size similaire, évalue NLD-8B comme drop-in candidate. Les claims de throughput sont des claims ; vérifie sur tes propres prompts et hardware. Tests spécifiques : (1) accuracy delta sur ton eval suite à travers les trois modes (AR, diffusion, self-spec+LoRA), (2) tail latency à batch=1 vs setup actuel, (3) tokens-par-dollar sur ton mix hardware (H100, H200, GB200, MI300, ARM-host avec Grace+Hopper). Self-speculation+LoRA c'est la cible production-cost — mais la variation 14,4 à 32,5 percent d'acceptance par scale veut dire que ta distribution de prompts matter ; les gains sont pas uniformes. Si t'es à la classe de taille 3B pour du déploiement edge, l'initialisation open-weights de lignée Ministral3 te donne quelque chose de distinct de base Mistral, Phi, ou Gemma. Pour le trend-watching plus large : NVIDIA qui ship un LM diffusion-mode avec open weights c'est un signal de direction research. Les diffusion LMs étaient une direction research slow ; ça change le math de déploiement. Expect plus de releases diffusion-mode des autres labs dans les prochains deux à trois quarters à mesure que la story de cost-reduction se propage.