L'approche dominante : encoder le texte en embeddings (via CLIP ou T5), partir de bruit aléatoire, et itérativement débruiter en conditionnant sur les embeddings textuels par attention croisée. Chaque étape de débruitage rend l'image un peu moins bruitée et plus alignée avec le prompt. Après 20 à 50 étapes (ou 4 à 10 avec le flow matching), une image nette émerge. Le modèle a appris la relation statistique entre descriptions textuelles et features visuelles à partir de milliards de paires image-légende.
Au-delà des prompts textuels, la génération d'images moderne supporte : image-to-image (modifier une image existante), ControlNet (guider la composition avec des cartes de contours, de profondeur ou de poses), inpainting (régénérer une partie d'une image) et transfert de style (appliquer l'esthétique d'une image à une autre). Ces contrôles rendent la génération d'images pratique pour les workflows professionnels où « générer quelque chose d'aléatoire » ne suffit pas — tu as besoin de compositions, poses et mises en page spécifiques.
Les améliorations de qualité proviennent de trois sources : de meilleures architectures (U-Net vers DiT), un meilleur entraînement (flow matching plutôt que diffusion) et de meilleures données (plus haute résolution, meilleures légendes, plus de diversité). Les modèles de pointe actuels produisent des images photoréalistes difficiles à distinguer de photographies, bien qu'ils aient encore du mal avec : les mains et les doigts, le rendu de texte, les relations spatiales (« A est à gauche de B »), et le comptage (« exactement cinq pommes »). Ces défis restants sont des domaines de recherche actifs.