El formato FP4 de NVIDIA logra una aceleración de 1.68x en modelos de difusión

Los nuevos formatos de cuantización NVFP4 y MXFP8 de NVIDIA están entregando ganancias de rendimiento medibles en GPUs Blackwell, con aceleraciones de inferencia de extremo a extremo de hasta 1.68x y 1.26x respectivamente en modelos de difusión populares incluyendo Flux.1-Dev, QwenImage y LTX-2. Los formatos usan microescalado — agrupando elementos en bloques pequeños con factores de escala de alta precisión compartidos — en lugar de escalar tensores completos. NVFP4 usa punto flotante de 4-bit (E2M1) con bloques de 16 elementos, mientras que MXFP8 sigue el estándar Open Compute Project con formato de 8-bit E4M3/E5M2 y bloques de 32 elementos.

Estas no son solo mejoras teóricas. La cuantización ahora está lista para producción a través de la integración de diffusers y TorchAO, con código disponible para reproducción. Esto importa porque la inferencia de modelos de difusión ha sido prohibitivamente costosa para muchos casos de uso — reducir la huella de memoria en 3.5x mientras se mantiene la calidad visual (medida por LPIPS) hace estos modelos accesibles a más desarrolladores. El momento se alinea con el empuje de la industria hacia inferencia AI eficiente mientras los costos de entrenamiento se estabilizan y el despliegue se convierte en el cuello de botella.

Lo notable es el posicionamiento estratégico de NVIDIA aquí. Mientras los competidores se enfocan en cuantización de propósito general, NVIDIA apuesta a optimizaciones específicas de hardware que atan a los desarrolladores a su ecosistema. El requisito de capacidad CUDA 10.0+ significa que esto solo funciona en el hardware más nuevo y costoso. Otras fuentes revelan que esto es parte de un empuje más amplio de la arquitectura Blackwell con 208 mil millones de transistores y Transformer Engines de segunda generación — NVIDIA no está solo vendiendo velocidad, están vendiendo toda una pila de infraestructura.

Para los desarrolladores, la barrera práctica es el acceso al hardware B200, que sigue siendo limitado y costoso. La cuantización funciona mejor para cargas de trabajo de alto batch y limitadas por cómputo, así que los desarrolladores individuales no verán todos los beneficios. Pero para compañías que ya están invirtiendo en infraestructura Blackwell, esto representa ROI inmediato en despliegues de modelos de difusión sin cambios arquitectónicos.

El formato FP4 de NVIDIA logra una aceleración de 1.68x en modelos de difusión

Más noticias