A NVIDIA publicou "Pretraining Large Language Models with NVFP4" no arXiv (2509.25149v2), descrevendo a metodologia por trás do pretraining 4-bit para Nemotron-Nano-12B-v2-Base — um híbrido de 62 blocos (6 atenção + 28 FFN + 28 Mamba-2), 5120 hidden, treinado sobre 10 trilhões de tokens. A precisão downstream cai dentro do ruído da baseline FP8: MMLU-Pro 62,58% vs 62,62%, GSM8K-CoT 92,27% vs 89,08% (NVFP4 efetivamente mais alto), perda de validação dentro de 1% do FP8 durante a fase estável, alargando para ~1,5% durante decay. Alvo de hardware: NVIDIA Blackwell Tensor Cores. Throughput: aproximadamente 2× sobre FP8 em GB200, 3× em GB300. Pegada de memória de operandos aproximadamente reduzida pela metade. Este é o run de pretraining 4-bit mais longo documentado publicamente.

As quatro técnicas de estabilização são o verdadeiro entregável, e as ablações do paper reportam as quatro como necessárias. Primeira: precisão alta seletiva — aproximadamente 16% das linear layers em BF16, concentradas nos primeiros 2 e últimos 8 dos 62 blocos. Segunda: 16×16 Random Hadamard Transforms com vetores de sinal ±1 aleatórios, aplicados apenas aos inputs Wgrad. Terceira: 2D block scaling para os pesos, para que o forward e o backward vejam a mesma representação quantizada. Quarta: stochastic rounding apenas em gradientes — o paper nota que é "prejudicial em tensores de forward-pass". O formato em si são elementos E2M1 em blocos de 16 elementos com scale factors E4M3 mais um per-tensor scale FP32 sobreposto, garantindo que pelo menos 6,25% dos valores em cada bloco se sentem em precisão perto-de-FP8.

Coloque isto contra MXFP4, o formato microscaling 4-bit anterior. Em 8B a 1T tokens, NVFP4 tem uma lacuna de perda de 1,5% em relação ao BF16; MXFP4 tem 2,5%. Para igualar a precisão NVFP4, MXFP4 precisa de 1,36T tokens — 36% a mais. Essa é uma vantagem wall-clock mensurável que flui até o custo total de propriedade. Duas coisas para rastrear. Primeira, a receita se transfere apenas até Blackwell — hardware pré-Blackwell não verá o speedup 2-3×, embora as técnicas algorítmicas sejam extraíveis. Segunda, o paper em si sinaliza trabalho pendente: nem todas as linear layers são quantizadas (o holdout BF16 de ~16%), as rotas de atenção e comunicação ainda não são 4-bit, e as leis de escala para FP4 através de contagens de parâmetros e horizontes permanecem abertas.

Segunda-feira: se você está fazendo pretraining em hardware classe-Blackwell (GB200/GB300) em qualquer escala não trivial, a metodologia NVFP4 é reproduzível a partir do paper mais o suporte NVIDIA Transformer Engine. Portão de implementação: as quatro técnicas de estabilização juntas, não individualmente. Pular stochastic rounding dá gradientes enviesados; pular Random Hadamard quebra as estatísticas Wgrad; pular 2D weight scaling quebra a consistência fwd/bwd. A arquitetura Nemotron-Nano-v2 (Mamba + FFN + Atenção híbrido) é independente do método NVFP4 — a receita deveria se transferir para pretraining de transformer denso também, embora os runs de validação não sejam reportados para esse caso. Se você não está em Blackwell, trate isto como referência forward-looking para quando você atualizar.