Zubnet AIApprendreWiki › Génération d'images
Fondamentaux

Génération d'images

Aussi appelé : Text-to-image, art IA
Créer des images à partir de descriptions textuelles en utilisant des modèles d'IA. Tu tapes « un coucher de soleil sur des montagnes en style aquarelle » et le modèle génère une image correspondante. Les approches actuelles incluent les modèles de diffusion (Stable Diffusion, DALL-E), le flow matching (Flux) et les modèles autorégressifs. Le domaine a progressé de visages flous en 2020 à des résultats photoréalistes et artistiquement contrôlés en 2025.

Pourquoi c'est important

La génération d'images est la capacité IA grand public la plus visible après les chatbots. Elle transforme le design graphique, la publicité, l'art conceptuel et la communication visuelle. Comprendre les approches sous-jacentes (diffusion, flow matching, DiT) et leurs compromis t'aide à choisir le bon outil et à comprendre les limitations — pourquoi certains prompts marchent et d'autres pas, pourquoi certains styles sont plus faciles que d'autres.

En profondeur

L'approche dominante : encoder le texte en embeddings (via CLIP ou T5), partir de bruit aléatoire, et itérativement débruiter en conditionnant sur les embeddings textuels par attention croisée. Chaque étape de débruitage rend l'image un peu moins bruitée et plus alignée avec le prompt. Après 20 à 50 étapes (ou 4 à 10 avec le flow matching), une image nette émerge. Le modèle a appris la relation statistique entre descriptions textuelles et features visuelles à partir de milliards de paires image-légende.

Contrôle et conditionnement

Au-delà des prompts textuels, la génération d'images moderne supporte : image-to-image (modifier une image existante), ControlNet (guider la composition avec des cartes de contours, de profondeur ou de poses), inpainting (régénérer une partie d'une image) et transfert de style (appliquer l'esthétique d'une image à une autre). Ces contrôles rendent la génération d'images pratique pour les workflows professionnels où « générer quelque chose d'aléatoire » ne suffit pas — tu as besoin de compositions, poses et mises en page spécifiques.

La frontière de la qualité

Les améliorations de qualité proviennent de trois sources : de meilleures architectures (U-Net vers DiT), un meilleur entraînement (flow matching plutôt que diffusion) et de meilleures données (plus haute résolution, meilleures légendes, plus de diversité). Les modèles de pointe actuels produisent des images photoréalistes difficiles à distinguer de photographies, bien qu'ils aient encore du mal avec : les mains et les doigts, le rendu de texte, les relations spatiales (« A est à gauche de B »), et le comptage (« exactement cinq pommes »). Ces défis restants sont des domaines de recherche actifs.

Concepts connexes

← Tous les termes
← Grounding Génération de vidéos →