La arquitectura tiene tres componentes: un text encoder (CLIP o T5) convierte el prompt en embeddings, un U-Net (SD 1.5/SDXL) o DiT (SD3) realiza denoising iterativo en espacio latente, y un VAE decoder convierte la representación latente final en una imagen de resolución completa. La parte "latente" es clave: en lugar de hacer denoising de una imagen de 512×512 (786K valores), hace denoising de un latente de 64×64 (4K valores), haciendo la generación 50x más rápida.
La naturaleza abierta de SD creó un ecosistema sin precedentes. Civitai y Hugging Face albergan miles de modelos entrenados por la comunidad y LoRA fine-tunes (estilo anime, fotorrealismo, personajes específicos). Los frontends WebUI (Automatic1111, ComfyUI) proporcionan interfaces para flujos de trabajo de generación complejos. ControlNet, IP-Adapter y otras extensiones agregan control más allá del prompting de texto. Ningún otro modelo de IA ha generado este nivel de innovación comunitaria.
SD3 reemplazó el U-Net con un DiT (Diffusion Transformer) y cambió de diffusion a flow matching, siguiendo las tendencias arquitectónicas más amplias del campo. También usa tres text encoders (CLIP-L, CLIP-G, T5-XXL) para mejor comprensión de prompts. El resultado: mejor renderizado de texto, composiciones más coherentes y mejor seguimiento de prompts. Pero el tamaño de modelo más grande (2B+ parámetros) lo hace más difícil de ejecutar en hardware de consumo, creando tensión con la misión de accesibilidad de SD.