Les nouveaux formats de quantification NVFP4 et MXFP8 de NVIDIA offrent des gains de performance mesurables sur les GPU Blackwell, avec des accélérations d'inférence de bout en bout allant jusqu'à 1,68x et 1,26x respectivement sur des modèles de diffusion populaires incluant Flux.1-Dev, QwenImage et LTX-2. Les formats utilisent la microéchelle — regroupant les éléments en petits blocs avec des facteurs d'échelle haute précision partagés — plutôt que de mettre à l'échelle des tenseurs entiers. NVFP4 utilise le point flottant 4-bit (E2M1) avec des blocs de 16 éléments, tandis que MXFP8 suit le standard Open Compute Project avec le format 8-bit E4M3/E5M2 et des blocs de 32 éléments.
Ce ne sont pas juste des améliorations théoriques. La quantification est maintenant prête pour la production grâce à l'intégration diffusers et TorchAO, avec du code disponible pour reproduction. C'est important parce que l'inférence des modèles de diffusion a été prohibitivement coûteuse pour plusieurs cas d'usage — réduire l'empreinte mémoire par 3,5x tout en maintenant la qualité visuelle (mesurée par LPIPS) rend ces modèles accessibles à plus de développeurs. Le timing s'aligne avec la poussée industrielle vers l'inférence AI efficace alors que les coûts d'entraînement plafonnent et que le déploiement devient le goulot d'étranglement.
Ce qui est notable, c'est le positionnement stratégique de NVIDIA ici. Pendant que les compétiteurs se concentrent sur la quantification généraliste, NVIDIA mise sur des optimisations spécifiques au matériel qui enferment les développeurs dans leur écosystème. L'exigence de capacité CUDA 10.0+ signifie que ça ne fonctionne que sur le matériel le plus récent et le plus cher. D'autres sources révèlent que ça fait partie d'une poussée plus large de l'architecture Blackwell avec 208 milliards de transistors et des Transformer Engines de deuxième génération — NVIDIA ne vend pas juste de la vitesse, ils vendent toute une pile d'infrastructure.
Pour les développeurs, la barrière pratique c'est l'accès au matériel B200, qui reste limité et coûteux. La quantification fonctionne mieux pour les charges de travail haute-batch et limitées par le calcul, donc les développeurs solo ne verront pas tous les bénéfices. Mais pour les compagnies qui investissent déjà dans l'infrastructure Blackwell, ça représente un ROI immédiat sur les déploiements de modèles de diffusion sans changements architecturaux.
