NVIDIA 在 arXiv(2509.25149v2)发表了《Pretraining Large Language Models with NVFP4》,描述了 Nemotron-Nano-12B-v2-Base 的 4-bit 预训练方法论 —— 一个 62 个 block 的混合架构(6 个 attention + 28 个 FFN + 28 个 Mamba-2),hidden 5120,在 10 万亿 tokens 上训练。下游准确率落在 FP8 baseline 的噪声范围内:MMLU-Pro 62.58% 对 62.62%,GSM8K-CoT 92.27% 对 89.08%(NVFP4 实际更高),稳定阶段 validation loss 在 FP8 的 1% 之内,decay 阶段扩到约 1.5%。硬件目标:NVIDIA Blackwell Tensor Core。吞吐量:在 GB200 上大约是 FP8 的 2×,在 GB300 上 3×。Operand 内存占用大约减半。这是公开记录里最长的 4-bit 预训练 run。
四个稳定化技术才是这篇论文真正的交付物,论文的消融实验报告四个都是必要的。第一,选择性高精度 —— 大约 16% 的 linear layer 用 BF16,集中在 62 个 block 中的前 2 个和后 8 个。第二,在 Wgrad 输入上做 16×16 Random Hadamard 变换,带随机的 ±1 符号向量。第三,对权重做 2D block scaling,这样 forward 和 backward 看到的是同一份量化表示。第四,只在 gradient 上做随机舍入 —— 论文指出在 forward-pass tensor 上做随机舍入是「有害的」。格式本身是 16 个元素一组的 E2M1 元素加 E4M3 scale factor,再叠一层 FP32 per-tensor scale,保证每组里至少 6.25% 的值处在接近 FP8 的精度。
把它对照 MXFP4 —— 之前的 4-bit microscaling 格式。在 8B 模型 1T tokens 上,NVFP4 跟 BF16 的 loss 差是 1.5%,MXFP4 是 2.5%。要达到 NVFP4 的精度,MXFP4 得多吃 1.36T tokens —— 多 36%。这是一个可量化的 wall-clock 优势,会直接走到 TCO 上。有两件事要追踪。第一,这个 recipe 只能转到 Blackwell —— Blackwell 之前的硬件看不到 2-3× 的加速,但算法侧的技术是可以提取的。第二,论文自己 flag 了未做完的工作:不是所有 linear layer 都量化了(那 ~16% 留在 BF16 的部分),attention 和通信路径还没上 4-bit,而 FP4 在不同参数量和训练量上的 scaling law 还没被建。
周一上手:如果你在 Blackwell 级别的硬件(GB200/GB300)上做任何非琐碎规模的预训练,NVFP4 方法论是可以从论文加上 NVIDIA Transformer Engine 的支持复现的。实现关卡:四个稳定化技术要一起用,不能单挑。跳过随机舍入,gradient 就有系统性偏差;跳过 Random Hadamard,Wgrad 的统计就破了;跳过 2D weight scaling,forward/backward 的一致性就破了。Nemotron-Nano-v2 的架构(Mamba + FFN + Attention 混合)跟 NVFP4 方法本身是独立的 —— 这个 recipe 应该能转到普通 dense transformer 的预训练上,但论文里没给那个情况下的验证 run。如果你还不在 Blackwell 上,就把这篇当成你升级之后的 forward-looking 参考。
