NVIDIA的新NVFP4和MXFP8量化格式在Blackwell GPU上实现了可测量的性能提升,在包括Flux.1-Dev、QwenImage和LTX-2在内的热门扩散模型上分别实现了高达1.68倍和1.26倍的端到端推理加速。这些格式使用微缩放——将元素分组到具有共享高精度缩放因子的小块中——而非缩放整个张量。NVFP4使用4位浮点(E2M1)和16元素块,而MXFP8遵循Open Compute Project标准,使用8位E4M3/E5M2格式和32元素块。
这些不仅仅是理论改进。量化现在通过diffusers和TorchAO集成已可用于生产环境,代码可供复现。这很重要,因为扩散模型推理对许多用例来说成本过高——在保持视觉质量(通过LPIPS测量)的同时将内存占用减少3.5倍,使更多开发者能够使用这些模型。时机与行业推动高效AI推理的大趋势一致,因为训练成本趋于平稳,部署成为瓶颈。
值得注意的是NVIDIA在此的战略定位。当竞争对手专注于通用量化时,NVIDIA押注于将开发者锁定在其生态系统中的硬件特定优化。对CUDA capability 10.0+的要求意味着这只在最新、最昂贵的硬件上工作。其他消息来源透露,这是更广泛的Blackwell架构推进的一部分,具有2080亿个晶体管和第二代Transformer Engine——NVIDIA不仅在销售速度,他们在销售整个基础设施堆栈。
对开发者来说,实际障碍是获取B200硬件,这仍然有限且昂贵。量化最适合高批次、计算密集型工作负载,所以独立开发者不会看到全部好处。但对于已经投资Blackwell基础设施的公司来说,这代表了扩散模型部署的即时ROI,无需架构变更。
