El enfoque dominante: codificar texto en embeddings (vía CLIP o T5), comenzar con ruido aleatorio, e iterativamente eliminar ruido mientras se condiciona en los embeddings de texto a través de atención cruzada. Cada paso de denoising hace la imagen ligeramente menos ruidosa y más alineada con el prompt. Después de 20–50 pasos (o 4–10 con flow matching), emerge una imagen limpia. El modelo ha aprendido la relación estadística entre descripciones de texto y características de imagen de miles de millones de pares imagen-caption.
Más allá de los prompts de texto, la generación de imágenes moderna soporta: imagen a imagen (modificar una imagen existente), ControlNet (guiar la composición con mapas de bordes, mapas de profundidad o poses), inpainting (regenerar parte de una imagen) y transferencia de estilo (aplicar la estética de una imagen a otra). Estos controles hacen que la generación de imágenes sea práctica para flujos de trabajo profesionales donde "generar algo aleatorio" no es suficiente — necesitas composiciones, poses y layouts específicos.
Las mejoras de calidad en imágenes provienen de tres fuentes: mejores arquitecturas (U-Net a DiT), mejor entrenamiento (flow matching sobre difusión), y mejores datos (mayor resolución, mejores captions, más diversidad). Los modelos de frontera actuales producen imágenes fotorrealistas difíciles de distinguir de fotografías, aunque todavía tienen dificultades con: manos y dedos, renderizado de texto, relaciones espaciales ("A está a la izquierda de B") y conteo ("exactamente cinco manzanas"). Estos desafíos restantes son áreas activas de investigación.