NVIDIA的新NVFP4和MXFP8量化格式在Blackwell GPU上實現了可量測的效能提升,在包括Flux.1-Dev、QwenImage和LTX-2在內的熱門擴散模型上分別實現了高達1.68倍和1.26倍的端到端推論加速。這些格式使用微縮放——將元素分組到具有共享高精度縮放因子的小區塊中——而非縮放整個張量。NVFP4使用4位元浮點(E2M1)和16元素區塊,而MXFP8遵循Open Compute Project標準,使用8位元E4M3/E5M2格式和32元素區塊。
這些不僅僅是理論改進。量化現在透過diffusers和TorchAO整合已可用於生產環境,程式碼可供重現。這很重要,因為擴散模型推論對許多使用案例來說成本過高——在保持視覺品質(透過LPIPS測量)的同時將記憶體占用減少3.5倍,使更多開發者能夠使用這些模型。時機與業界推動高效AI推論的大趨勢一致,因為訓練成本趨於平緩,部署成為瓶頸。
值得注意的是NVIDIA在此的戰略定位。當競爭對手專注於通用量化時,NVIDIA押注於將開發者綁定在其生態系統中的硬體特定優化。對CUDA capability 10.0+的要求意味著這只在最新、最昂貴的硬體上工作。其他消息來源透露,這是更廣泛的Blackwell架構推進的一部分,具有2080億個電晶體和第二代Transformer Engine——NVIDIA不僅在銷售速度,他們在銷售整個基礎設施堆疊。
對開發者來說,實際障礙是取得B200硬體,這仍然有限且昂貴。量化最適合高批次、運算密集型工作負載,所以獨立開發者不會看到全部好處。但對於已經投資Blackwell基礎設施的公司來說,這代表了擴散模型部署的即時ROI,無需架構變更。
