NVIDIA 在 arXiv(2509.25149v2)發表了《Pretraining Large Language Models with NVFP4》,描述了 Nemotron-Nano-12B-v2-Base 的 4-bit 預訓練方法論 —— 一個 62 個 block 的混合架構(6 個 attention + 28 個 FFN + 28 個 Mamba-2),hidden 5120,在 10 兆 tokens 上訓練。下游準確率落在 FP8 baseline 的雜訊範圍內:MMLU-Pro 62.58% 對 62.62%,GSM8K-CoT 92.27% 對 89.08%(NVFP4 實際更高),穩定階段 validation loss 在 FP8 的 1% 之內,decay 階段擴到約 1.5%。硬體目標:NVIDIA Blackwell Tensor Core。吞吐量:在 GB200 上大約是 FP8 的 2×,在 GB300 上 3×。Operand 記憶體佔用大約減半。這是公開記錄裡最長的 4-bit 預訓練 run。
四個穩定化技術才是這篇論文真正的交付物,論文的消融實驗報告四個都是必要的。第一,選擇性高精度 —— 大約 16% 的 linear layer 用 BF16,集中在 62 個 block 中的前 2 個和後 8 個。第二,在 Wgrad 輸入上做 16×16 Random Hadamard 變換,帶隨機的 ±1 符號向量。第三,對權重做 2D block scaling,這樣 forward 和 backward 看到的是同一份量化表示。第四,只在 gradient 上做隨機捨入 —— 論文指出在 forward-pass tensor 上做隨機捨入是「有害的」。格式本身是 16 個元素一組的 E2M1 元素加 E4M3 scale factor,再疊一層 FP32 per-tensor scale,保證每組裡至少 6.25% 的值處在接近 FP8 的精度。
把它對照 MXFP4 —— 之前的 4-bit microscaling 格式。在 8B 模型 1T tokens 上,NVFP4 跟 BF16 的 loss 差是 1.5%,MXFP4 是 2.5%。要達到 NVFP4 的精度,MXFP4 得多吃 1.36T tokens —— 多 36%。這是一個可量化的 wall-clock 優勢,會直接走到 TCO 上。有兩件事要追蹤。第一,這個 recipe 只能轉到 Blackwell —— Blackwell 之前的硬體看不到 2-3× 的加速,但演算法側的技術是可以提取的。第二,論文自己 flag 了未做完的工作:不是所有 linear layer 都量化了(那 ~16% 留在 BF16 的部分),attention 和通訊路徑還沒上 4-bit,而 FP4 在不同參數量和訓練量上的 scaling law 還沒被建立。
週一上手:如果你在 Blackwell 級別的硬體(GB200/GB300)上做任何非瑣碎規模的預訓練,NVFP4 方法論是可以從論文加上 NVIDIA Transformer Engine 的支援複現的。實作關卡:四個穩定化技術要一起用,不能單挑。跳過隨機捨入,gradient 就有系統性偏差;跳過 Random Hadamard,Wgrad 的統計就破了;跳過 2D weight scaling,forward/backward 的一致性就破了。Nemotron-Nano-v2 的架構(Mamba + FFN + Attention 混合)跟 NVFP4 方法本身是獨立的 —— 這個 recipe 應該能轉到普通 dense transformer 的預訓練上,但論文裡沒給那個情況下的驗證 run。如果你還不在 Blackwell 上,就把這篇當成你升級之後的 forward-looking 參考。
