NVIDIA ने arXiv (2509.25149v2) पर "Pretraining Large Language Models with NVFP4" publish किया, जो Nemotron-Nano-12B-v2-Base के लिए 4-bit pretraining के पीछे की methodology describe करता है — एक 62-block hybrid (6 attention + 28 FFN + 28 Mamba-2), 5120 hidden, 10 trillion tokens पर trained। Downstream accuracy FP8 baseline के noise के अंदर लैंड होती है: MMLU-Pro 62.58% vs 62.62%, GSM8K-CoT 92.27% vs 89.08% (NVFP4 actually higher), stable phase के दौरान validation loss FP8 के 1% के अंदर, decay के दौरान ~1.5% तक widen। Hardware target: NVIDIA Blackwell Tensor Cores। Throughput: GB200 पर FP8 से roughly 2×, GB300 पर 3×। Operand memory footprint लगभग आधी। यह publicly documented सबसे लंबा 4-bit pretraining run है।
चार stabilization techniques ही असली deliverable हैं, और paper की ablations सभी चार को necessary report करती हैं। पहली: selective high precision — लगभग 16% linear layers BF16 में, 62 blocks में से पहले 2 और आख़िरी 8 में concentrated। दूसरी: 16×16 Random Hadamard Transforms random ±1 sign vectors के साथ, सिर्फ़ Wgrad inputs पर apply। तीसरी: weights के लिए 2D block scaling, ताकि forward और backward pass एक ही quantized representation देखें। चौथी: stochastic rounding सिर्फ़ gradients पर — paper नोट करती है यह "forward-pass tensors पर detrimental" है। Format खुद 16-element blocks में E2M1 elements plus E4M3 scale factors plus एक FP32 per-tensor scale overlay है, यह ensure करता है कि हर block में कम से कम 6.25% values near-FP8 precision पर बैठें।
इसे MXFP4 के against रखो, पहले के 4-bit microscaling format। 8B पर 1T tokens पर, NVFP4 का BF16 से loss gap 1.5% है; MXFP4 का 2.5%। NVFP4 accuracy match करने के लिए, MXFP4 को 1.36T tokens चाहिए — 36% ज़्यादा। यह एक measurable wall-clock advantage है जो total cost of ownership तक flow करता है। दो चीज़ें track करनी हैं। पहली, recipe सिर्फ़ Blackwell तक transfer होती है — pre-Blackwell hardware 2-3× speedup नहीं देखेगा, हालाँकि algorithmic techniques extractable हैं। दूसरी, paper खुद pending work flag करती है: सभी linear layers quantized नहीं हैं (~16% BF16 holdout), attention और communication paths अभी 4-bit नहीं, और parameter counts व horizons के across FP4 के लिए scaling laws खुले हैं।
सोमवार: अगर आप Blackwell-class hardware (GB200/GB300) पर किसी भी non-trivial scale पर pretraining कर रहे हो, NVFP4 methodology paper plus NVIDIA Transformer Engine support से reproducible है। Implementation gating: चारों stabilization techniques एक साथ, individually नहीं। Stochastic rounding skip करने से biased gradients मिलते हैं; Random Hadamard skip करने से Wgrad statistics break होती हैं; 2D weight scaling skip करने से fwd/bwd consistency break होती है। Nemotron-Nano-v2 architecture (Mamba + FFN + Attention hybrid) NVFP4 method से independent है — recipe को dense transformer pretraining पर भी transfer होना चाहिए, हालाँकि उस case के लिए validation runs report नहीं किए गए। अगर आप Blackwell पर नहीं हो, इसे upgrade करने के बाद के लिए forward-looking reference के रूप में treat करो।
