NVIDIA publicó "Pretraining Large Language Models with NVFP4" en arXiv (2509.25149v2), describiendo la metodología detrás del pretraining 4-bit para Nemotron-Nano-12B-v2-Base — un híbrido de 62 bloques (6 atención + 28 FFN + 28 Mamba-2), 5120 hidden, entrenado sobre 10 billones de tokens. La precisión downstream cae dentro del ruido de la baseline FP8: MMLU-Pro 62.58% vs 62.62%, GSM8K-CoT 92.27% vs 89.08% (NVFP4 efectivamente más alto), pérdida de validación dentro del 1% de FP8 durante la fase estable, ensanchándose a ~1.5% durante decay. Objetivo de hardware: NVIDIA Blackwell Tensor Cores. Throughput: aproximadamente 2× sobre FP8 en GB200, 3× en GB300. Huella de memoria de operandos aproximadamente reducida a la mitad. Este es el run de pretraining 4-bit más largo documentado públicamente.

Las cuatro técnicas de estabilización son el verdadero entregable, y las ablaciones del paper reportan las cuatro como necesarias. Primero: precisión alta selectiva — aproximadamente 16% de las linear layers en BF16, concentradas en los primeros 2 y últimos 8 de los 62 bloques. Segundo: 16×16 Random Hadamard Transforms con vectores de signo ±1 random, aplicados solo a inputs Wgrad. Tercero: 2D block scaling para los pesos, para que el forward y el backward vean la misma representación cuantizada. Cuarto: stochastic rounding solo en gradientes — el paper nota que es "detrimental en tensores de forward-pass". El formato mismo son elementos E2M1 en bloques de 16 elementos con scale factors E4M3 más un per-tensor scale FP32 superpuesto, asegurando que al menos 6.25% de los valores en cada bloque se sienten en precisión cerca-de-FP8.

Pon esto contra MXFP4, el formato microscaling 4-bit anterior. En 8B a 1T tokens, NVFP4 tiene una brecha de pérdida de 1.5% respecto a BF16; MXFP4 tiene 2.5%. Para igualar la precisión NVFP4, MXFP4 necesita 1.36T tokens — 36% más. Esa es una ventaja wall-clock medible que fluye al costo total de propiedad. Dos cosas a rastrear. Primero, la receta se transfiere solo hasta Blackwell — el hardware pre-Blackwell no verá el speedup de 2-3×, aunque las técnicas algorítmicas son extraíbles. Segundo, el paper mismo señala trabajo pendiente: no todas las linear layers están cuantizadas (el holdout BF16 de ~16%), las rutas de atención y comunicación todavía no son 4-bit, y las leyes de escalado para FP4 a través de cantidades de parámetros y horizontes permanecen abiertas.

Lunes: si haces pretraining en hardware clase-Blackwell (GB200/GB300) a cualquier escala no trivial, la metodología NVFP4 es reproducible desde el paper más el soporte NVIDIA Transformer Engine. Compuerta de implementación: las cuatro técnicas de estabilización juntas, no individualmente. Saltar stochastic rounding da gradientes sesgados; saltar Random Hadamard rompe las estadísticas Wgrad; saltar 2D weight scaling rompe la consistencia fwd/bwd. La arquitectura Nemotron-Nano-v2 (híbrido Mamba + FFN + Atención) es independiente del método NVFP4 — la receta debería transferirse al pretraining de transformer denso también, aunque los runs de validación no se reportan para ese caso. Si no estás en Blackwell, trata esto como referencia hacia adelante para cuando actualices.