NVIDIA的FP4格式在擴散模型上實現1.68倍加速

NVIDIA的新NVFP4和MXFP8量化格式在Blackwell GPU上實現了可量測的效能提升，在包括Flux.1-Dev、QwenImage和LTX-2在內的熱門擴散模型上分別實現了高達1.68倍和1.26倍的端到端推論加速。這些格式使用微縮放——將元素分組到具有共享高精度縮放因子的小區塊中——而非縮放整個張量。NVFP4使用4位元浮點(E2M1)和16元素區塊，而MXFP8遵循Open Compute Project標準，使用8位元E4M3/E5M2格式和32元素區塊。

這些不僅僅是理論改進。量化現在透過diffusers和TorchAO整合已可用於生產環境，程式碼可供重現。這很重要，因為擴散模型推論對許多使用案例來說成本過高——在保持視覺品質(透過LPIPS測量)的同時將記憶體占用減少3.5倍，使更多開發者能夠使用這些模型。時機與業界推動高效AI推論的大趨勢一致，因為訓練成本趨於平緩，部署成為瓶頸。

值得注意的是NVIDIA在此的戰略定位。當競爭對手專注於通用量化時，NVIDIA押注於將開發者綁定在其生態系統中的硬體特定優化。對CUDA capability 10.0+的要求意味著這只在最新、最昂貴的硬體上工作。其他消息來源透露，這是更廣泛的Blackwell架構推進的一部分，具有2080億個電晶體和第二代Transformer Engine——NVIDIA不僅在銷售速度，他們在銷售整個基礎設施堆疊。

對開發者來說，實際障礙是取得B200硬體，這仍然有限且昂貴。量化最適合高批次、運算密集型工作負載，所以獨立開發者不會看到全部好處。但對於已經投資Blackwell基礎設施的公司來說，這代表了擴散模型部署的即時ROI，無需架構變更。

NVIDIA的FP4格式在擴散模型上實現1.68倍加速

更多新聞