NVIDIA a publié « Pretraining Large Language Models with NVFP4 » sur arXiv (2509.25149v2) qui décrit la méthodologie derrière le pretraining 4-bit pour Nemotron-Nano-12B-v2-Base — un hybride de 62 blocks (6 attention + 28 FFN + 28 Mamba-2), 5120 hidden, entraîné sur 10 trillions de tokens. L'accuracy downstream tombe dans le bruit de la baseline FP8 : MMLU-Pro 62,58% vs 62,62%, GSM8K-CoT 92,27% vs 89,08% (NVFP4 effectivement plus haut), validation loss à 1% près de FP8 pendant la phase stable, qui s'élargit à ~1,5% pendant le decay. Cible hardware : NVIDIA Blackwell Tensor Cores. Throughput : environ 2× sur FP8 avec GB200, 3× avec GB300. Footprint mémoire des opérandes environ divisée par deux. C'est le run de pretraining 4-bit le plus long documenté publiquement.

Les quatre techniques de stabilisation sont le vrai deliverable, et les ablations du paper rapportent les quatre comme nécessaires. Premièrement : précision haute sélective — environ 16% des linear layers en BF16, concentrés dans les 2 premiers et les 8 derniers des 62 blocks. Deuxièmement : 16×16 Random Hadamard Transforms avec des vecteurs de signe ±1 random, appliqués seulement aux inputs Wgrad. Troisièmement : 2D block scaling pour les weights, pour que le forward et le backward voient la même représentation quantizée. Quatrièmement : stochastic rounding seulement sur les gradients — le paper note que c'est « détrimental sur les tensors forward-pass ». Le format lui-même c'est des éléments E2M1 dans des blocks de 16 éléments avec des scale factors E4M3 plus un per-tensor scale FP32 overlay, qui assure qu'au moins 6,25% des valeurs dans chaque block sit à précision près-de-FP8.

Positionne ça contre MXFP4, le format microscaling 4-bit antérieur. Sur 8B à 1T tokens, NVFP4 a une gap de loss de 1,5% par rapport à BF16 ; MXFP4 a 2,5%. Pour matcher l'accuracy NVFP4, MXFP4 a besoin de 1,36T tokens — 36% de plus. C'est un avantage wall-clock mesurable qui flow à travers au TCO. Deux choses à tracker. Premièrement, la recette se transfère seulement jusqu'à Blackwell — le hardware pré-Blackwell verra pas le speedup 2-3×, même si les techniques algorithmiques sont extractables. Deuxièmement, le paper lui-même flag du work pending : pas tous les linear layers sont quantizés (le holdout BF16 de ~16%), les paths d'attention et de communication sont pas encore 4-bit, et les scaling laws pour FP4 à travers les param counts et horizons restent ouvertes.

Lundi matin : si tu pretrains sur du hardware classe-Blackwell (GB200/GB300) à n'importe quelle scale non-triviale, la méthodologie NVFP4 est reproductible depuis le paper plus le support NVIDIA Transformer Engine. Gating d'implémentation : les quatre techniques de stabilisation ensemble, pas individuellement. Skip le stochastic rounding donne des gradients biaisés ; skip le Random Hadamard casse les statistics Wgrad ; skip le 2D weight scaling casse la consistency fwd/bwd. L'architecture Nemotron-Nano-v2 (Mamba + FFN + Attention hybride) est indépendante de la méthode NVFP4 — la recette devrait se transférer au pretraining de transformer dense aussi, même si les runs de validation sont pas rapportés pour ce cas. Si t'es pas sur Blackwell, traite ça comme une référence forward-looking pour quand tu upgrade.