La idea central es engañosamente simple. Toma una imagen real, agrégale ruido gaussiano paso a paso hasta que se convierta en estática pura, luego entrena una red neuronal para revertir cada paso. En el momento de la generación, comienzas con ruido aleatorio y ejecutas el proceso de eliminación de ruido aprendido hacia adelante. El modelo nunca genera una imagen desde cero de un solo golpe — la esculpe a través de docenas o cientos de pasos de refinamiento iterativo, cada uno empujando el desorden ruidoso un poco más cerca de algo coherente. Esta naturaleza iterativa es tanto la fortaleza como la debilidad del enfoque: produce salidas de calidad notablemente alta, pero cada imagen requiere muchos pases hacia adelante a través de la red, haciendo la generación lenta comparada con arquitecturas de un solo pase.
En la práctica, los modelos de difusión modernos no trabajan directamente en espacio de píxeles. La difusión latente (el "Stable" en Stable Diffusion) comprime imágenes en una representación latente mucho más pequeña usando un autoencoder preentrenado, luego ejecuta el proceso de difusión ahí. Esto es lo que hizo práctica la generación en alta resolución — difundir una imagen de 512x512 en espacio de píxeles requiere operar sobre 786,432 valores por paso, mientras que el espacio latente podría comprimir eso a 64x64x4, o alrededor de 16,384 valores. El autoencoder maneja el mapeo de vuelta a píxeles al final. DALL-E 3, Midjourney, Flux y esencialmente cada generador de imágenes competitivo hoy usa alguna forma de difusión latente.
El condicionamiento es cómo diriges la salida. Los modelos de texto a imagen codifican tu prompt usando un encoder de texto (CLIP o T5, típicamente), luego inyectan esos embeddings en la red de eliminación de ruido vía cross-attention en cada paso. La guía sin clasificador (CFG) es el truco que hace que esto funcione bien — durante el entrenamiento, el modelo ocasionalmente descarta la señal de condicionamiento para que también aprenda generación no condicionada. En la inferencia, calculas tanto las predicciones condicionadas como las no condicionadas, luego extrapolas lejos de la no condicionada. Escalas de CFG más altas significan que el modelo sigue tu prompt más literalmente, pero empuja demasiado lejos y obtienes imágenes sobresaturadas y con artefactos. Este es ese control deslizante de "escala de guía" que ves en cada interfaz de difusión.
La arquitectura de la propia red de eliminación de ruido ha estado evolucionando rápidamente. La columna vertebral original U-Net (una arquitectura convolucional tomada prestada de la segmentación de imágenes médicas) dominó a través de Stable Diffusion 1.x y 2.x. Pero el campo se ha estado moviendo constantemente hacia denoisers basados en Transformer — Diffusion Transformers, o DiTs. Sora, Stable Diffusion 3 y Flux todos usan variantes de DiT. El cambio tiene sentido: los Transformers manejan secuencias de longitud variable y escalan más predeciblemente con el cómputo. Para la generación de video, la secuencia simplemente se convierte en una serie de frames, y attention puede modelar la coherencia temporal directamente.
Un malentendido común es que los modelos de difusión "almacenan" o "recuperan" imágenes de entrenamiento. No lo hacen. El modelo aprende una función estadística de eliminación de ruido — el gradiente de la distribución de datos, técnicamente. La memorización puede ocurrir con datos de entrenamiento altamente duplicados, pero es un modo de fallo, no el mecanismo. Otro detalle práctico: el número de pasos de eliminación de ruido tiene un impacto enorme en la calidad y velocidad. Técnicas como DDIM y DPM-Solver redujeron los pasos requeridos de miles a 20-50, y los métodos de destilación (SDXL Turbo, Latent Consistency Models) han empujado esto más allá a 1-4 pasos, aunque con algunas compensaciones de calidad. Esta es la frontera ahora — hacer la difusión lo suficientemente rápida para uso en tiempo real e interactivo sin sacrificar la calidad que la hizo dominante en primer lugar.