Stable Diffusion: Definición y significado — Wiki de IA

El modelo de generación de imágenes de código abierto más ampliamente usado, creado por Stability AI en colaboración con investigadores académicos. Stable Diffusion genera imágenes a partir de prompts de texto usando diffusion latente — realizando el proceso de denoising en un espacio latente comprimido en lugar del espacio de píxeles, haciéndolo lo suficientemente rápido para ejecutarse en GPUs de consumo. SD 1.5, SDXL y SD3 representan generaciones sucesivas.

Por qué importa

Stable Diffusion democratizó la generación de imágenes con IA. Antes de SD, la generación de imágenes requería acceso costoso a API (DALL-E) o estaba limitada a investigación. Los pesos abiertos de SD significaron que cualquiera podía ejecutarlo localmente, ajustarlo y construir sobre él. Esto generó un ecosistema enorme: LoRA fine-tunes, ControlNet, modelos personalizados, checkpoints entrenados por la comunidad y aplicaciones desde Automatic1111 hasta ComfyUI.

En profundidad

La arquitectura tiene tres componentes: un text encoder (CLIP o T5) convierte el prompt en embeddings, un U-Net (SD 1.5/SDXL) o DiT (SD3) realiza denoising iterativo en espacio latente, y un VAE decoder convierte la representación latente final en una imagen de resolución completa. La parte "latente" es clave: en lugar de hacer denoising de una imagen de 512×512 (786K valores), hace denoising de un latente de 64×64 (4K valores), haciendo la generación 50x más rápida.

El ecosistema

La naturaleza abierta de SD creó un ecosistema sin precedentes. Civitai y Hugging Face albergan miles de modelos entrenados por la comunidad y LoRA fine-tunes (estilo anime, fotorrealismo, personajes específicos). Los frontends WebUI (Automatic1111, ComfyUI) proporcionan interfaces para flujos de trabajo de generación complejos. ControlNet, IP-Adapter y otras extensiones agregan control más allá del prompting de texto. Ningún otro modelo de IA ha generado este nivel de innovación comunitaria.

SD3 y el cambio de arquitectura

SD3 reemplazó el U-Net con un DiT (Diffusion Transformer) y cambió de diffusion a flow matching, siguiendo las tendencias arquitectónicas más amplias del campo. También usa tres text encoders (CLIP-L, CLIP-G, T5-XXL) para mejor comprensión de prompts. El resultado: mejor renderizado de texto, composiciones más coherentes y mejor seguimiento de prompts. Pero el tamaño de modelo más grande (2B+ parámetros) lo hace más difícil de ejecutar en hardware de consumo, creando tensión con la misión de accesibilidad de SD.