Zubnet AIApprendreWiki › Stable Diffusion
Models

Stable Diffusion

SD, SDXL, SD3
Le modèle de génération d'images open-source le plus largement utilisé, créé par Stability AI en collaboration avec des chercheurs académiques. Stable Diffusion génère des images à partir de prompts textuels en utilisant la diffusion latente — effectuant le processus de débruitage dans un espace latent compressé plutôt que dans l'espace pixel, le rendant assez rapide pour tourner sur des GPU grand public. SD 1.5, SDXL et SD3 représentent des générations successives.

Pourquoi c'est important

Stable Diffusion a démocratisé la génération d'images IA. Avant SD, la génération d'images demandait un accès API coûteux (DALL-E) ou était limitée à la recherche. Les poids ouverts de SD voulaient dire que n'importe qui pouvait le faire tourner localement, le fine-tuner et construire dessus. Ça a fait naître un énorme écosystème : LoRA fine-tunes, ControlNet, modèles customs, checkpoints entraînés par la communauté, et applications d'Automatic1111 à ComfyUI.

Deep Dive

The architecture has three components: a text encoder (CLIP or T5) converts the prompt into embeddings, a U-Net (SD 1.5/SDXL) or DiT (SD3) performs iterative denoising in latent space, and a VAE decoder converts the final latent representation into a full-resolution image. The "latent" part is key: instead of denoising a 512×512 image (786K values), it denoises a 64×64 latent (4K values), making generation 50x faster.

The Ecosystem

SD's open nature created an unprecedented ecosystem. Civitai and Hugging Face host thousands of community-trained models and LoRA fine-tunes (anime style, photorealism, specific characters). WebUI frontends (Automatic1111, ComfyUI) provide interfaces for complex generation workflows. ControlNet, IP-Adapter, and other extensions add control beyond text prompting. No other AI model has generated this level of community innovation.

SD3 and the Architecture Shift

SD3 replaced the U-Net with a DiT (Diffusion Transformer) and switched from diffusion to flow matching, following the broader architectural trends in the field. It also uses three text encoders (CLIP-L, CLIP-G, T5-XXL) for better prompt understanding. The result: better text rendering, more coherent compositions, and improved prompt following. But the larger model size (2B+ parameters) makes it harder to run on consumer hardware, creating tension with SD's accessibility mission.

Concepts liés

← Tous les termes
ESC