L'architecture a trois composants : un encodeur de texte (CLIP ou T5) convertit le prompt en embeddings, un U-Net (SD 1.5/SDXL) ou DiT (SD3) effectue le débruitage itératif dans l'espace latent, et un décodeur VAE convertit la représentation latente finale en image pleine résolution. La partie « latente » est la clé : au lieu de débruiter une image 512×512 (786K valeurs), il débruite un latent 64×64 (4K valeurs), rendant la génération 50 fois plus rapide.
La nature ouverte de SD a créé un écosystème sans précédent. Civitai et Hugging Face hébergent des milliers de modèles et de fine-tunes LoRA entraînés par la communauté (style anime, photoréalisme, personnages spécifiques). Les frontends WebUI (Automatic1111, ComfyUI) fournissent des interfaces pour des workflows de génération complexes. ControlNet, IP-Adapter et d'autres extensions ajoutent du contrôle au-delà du simple prompt textuel. Aucun autre modèle IA n'a généré ce niveau d'innovation communautaire.
SD3 a remplacé le U-Net par un DiT (Diffusion Transformer) et est passé de la diffusion au flow matching, suivant les tendances architecturales plus larges du domaine. Il utilise aussi trois encodeurs de texte (CLIP-L, CLIP-G, T5-XXL) pour une meilleure compréhension des prompts. Le résultat : un meilleur rendu du texte, des compositions plus cohérentes et un meilleur suivi des prompts. Mais la taille de modèle plus grande (2B+ paramètres) le rend plus difficile à faire tourner sur du matériel grand public, créant une tension avec la mission d'accessibilité de SD.