L'idée de base est d'une simplicité trompeuse. Prenez une image réelle, ajoutez-y du bruit gaussien étape par étape jusqu'à ce qu'elle devienne du bruit pur, puis entraînez un réseau de neurones à inverser chaque étape. Au moment de la génération, vous partez de bruit aléatoire et exécutez le processus de débruitage appris vers l'avant. Le modèle ne génère jamais une image à partir de rien d'un seul coup — il la sculpte à travers des dizaines ou des centaines d'étapes de raffinement itératif, chacune poussant le fouillis bruité un peu plus près de quelque chose de cohérent. Cette nature itérative est à la fois la force et la faiblesse de l'approche : elle produit des sorties d'une qualité remarquable, mais chaque image nécessite de nombreux passages dans le réseau, ce qui rend la génération lente comparée aux architectures à passage unique.
En pratique, les modèles de diffusion modernes ne travaillent pas directement dans l'espace des pixels. La diffusion latente (le « Stable » dans Stable Diffusion) compresse les images en une représentation latente beaucoup plus petite à l'aide d'un autoencodeur pré-entraîné, puis exécute le processus de diffusion là-dedans. C'est ce qui a rendu la génération haute résolution praticable — diffuser une image 512x512 dans l'espace des pixels nécessite d'opérer sur 786 432 valeurs par étape, tandis que l'espace latent pourrait comprimer cela à 64x64x4, soit environ 16 384 valeurs. L'autoencodeur gère la correspondance inverse vers les pixels à la fin. DALL-E 3, Midjourney, Flux, et essentiellement tous les générateurs d'images compétitifs aujourd'hui utilisent une forme de diffusion latente.
Le conditionnement, c'est la façon dont vous orientez la sortie. Les modèles texte-vers-image encodent votre prompt à l'aide d'un encodeur de texte (CLIP ou T5, typiquement), puis injectent ces embeddings dans le réseau de débruitage via l'attention croisée à chaque étape. Le classifier-free guidance (CFG) est l'astuce qui fait bien fonctionner le tout — pendant l'entraînement, le modèle abandonne occasionnellement le signal de conditionnement pour qu'il apprenne aussi la génération non conditionnelle. À l'inférence, on calcule à la fois les prédictions conditionnées et non conditionnées, puis on extrapole en s'éloignant de la non conditionnée. Des valeurs CFG plus élevées signifient que le modèle suit votre prompt plus littéralement, mais poussez trop loin et vous obtenez des images sursaturées et pleines d'artefacts. C'est ce curseur « guidance scale » que vous voyez dans chaque interface de diffusion.
L'architecture du réseau de débruitage lui-même a évolué rapidement. Le squelette U-Net original (une architecture convolutive empruntée à la segmentation d'images médicales) a dominé à travers Stable Diffusion 1.x et 2.x. Mais le domaine a progressivement migré vers des débruiteurs basés sur les Transformers — les Diffusion Transformers, ou DiT. Sora, Stable Diffusion 3 et Flux utilisent tous des variantes DiT. Le virage est logique : les Transformers gèrent des séquences de longueur variable et passent à l'échelle de manière plus prévisible avec le calcul. Pour la génération vidéo, la séquence devient simplement une série d'images, et l'attention peut modéliser directement la cohérence temporelle.
Un malentendu courant est que les modèles de diffusion « stockent » ou « récupèrent » des images d'entraînement. Ce n'est pas le cas. Le modèle apprend une fonction statistique de débruitage — techniquement, le gradient de la distribution des données. La mémorisation peut se produire avec des données d'entraînement fortement dupliquées, mais c'est un mode de défaillance, pas le mécanisme. Un autre piège pratique : le nombre d'étapes de débruitage a un impact énorme sur la qualité et la vitesse. Des techniques comme DDIM et DPM-Solver ont réduit les étapes nécessaires de milliers à 20-50, et les méthodes de distillation (SDXL Turbo, Latent Consistency Models) ont poussé encore plus loin vers 1-4 étapes, quoiqu'avec certains compromis de qualité. C'est la frontière actuelle — rendre la diffusion assez rapide pour l'utilisation en temps réel et interactive sans sacrifier la qualité qui l'a rendue dominante.