NVIDIA的FP4格式在扩散模型上实现1.68倍提速

NVIDIA的新NVFP4和MXFP8量化格式在Blackwell GPU上实现了可测量的性能提升，在包括Flux.1-Dev、QwenImage和LTX-2在内的热门扩散模型上分别实现了高达1.68倍和1.26倍的端到端推理加速。这些格式使用微缩放——将元素分组到具有共享高精度缩放因子的小块中——而非缩放整个张量。NVFP4使用4位浮点(E2M1)和16元素块，而MXFP8遵循Open Compute Project标准，使用8位E4M3/E5M2格式和32元素块。

这些不仅仅是理论改进。量化现在通过diffusers和TorchAO集成已可用于生产环境，代码可供复现。这很重要，因为扩散模型推理对许多用例来说成本过高——在保持视觉质量(通过LPIPS测量)的同时将内存占用减少3.5倍，使更多开发者能够使用这些模型。时机与行业推动高效AI推理的大趋势一致，因为训练成本趋于平稳，部署成为瓶颈。

值得注意的是NVIDIA在此的战略定位。当竞争对手专注于通用量化时，NVIDIA押注于将开发者锁定在其生态系统中的硬件特定优化。对CUDA capability 10.0+的要求意味着这只在最新、最昂贵的硬件上工作。其他消息来源透露，这是更广泛的Blackwell架构推进的一部分，具有2080亿个晶体管和第二代Transformer Engine——NVIDIA不仅在销售速度，他们在销售整个基础设施堆栈。

对开发者来说，实际障碍是获取B200硬件，这仍然有限且昂贵。量化最适合高批次、计算密集型工作负载，所以独立开发者不会看到全部好处。但对于已经投资Blackwell基础设施的公司来说，这代表了扩散模型部署的即时ROI，无需架构变更。

NVIDIA的FP4格式在扩散模型上实现1.68倍提速

更多新闻