Image-to-Image : Définition et signification — Wiki IA

Générer une nouvelle image à partir d'une image existante plus un prompt textuel. Au lieu de partir de bruit pur (text-to-image), le processus de diffusion part d'une version bruitée de l'image d'entrée, préservant sa structure tout en la modifiant selon le prompt. « Une version cyberpunk de cette photo » garde la composition mais transforme le style et les détails.

Pourquoi c'est important

Image-to-image est le pont entre la photographie et l'art IA. Ça te permet d'utiliser des croquis, des photos ou des œuvres existantes comme point de départ, en maintenant la disposition et la composition pendant que l'IA transforme le style, ajoute des détails ou réimagine le contenu. C'est plus contrôlable que le text-to-image parce que tu guides la sortie avec une structure visuelle, pas juste des mots.

En profondeur

Le mécanisme : prends l'image d'entrée, encode-la dans l'espace latent (via l'encodeur VAE), ajoute du bruit proportionnel à un paramètre de « force de débruitage » (0.0 = aucun changement, 1.0 = bruit pur = text-to-image), puis débruite conditionné sur le prompt textuel. À une force de 0.3, la sortie ressemble fortement à l'entrée avec des modifications subtiles. À une force de 0.8, c'est largement réimaginé mais garde la composition de base.

Force de débruitage

La force de débruitage est le paramètre clé : elle contrôle à quel point la sortie peut s'écarter de l'entrée. Force faible (0.2–0.4) : changements de style mineurs, ajustements de couleur, ajouts de détails subtils. Force moyenne (0.5–0.7) : transformation de style significative tout en préservant la composition. Force élevée (0.8–1.0) : réimagination majeure, seulement une similarité structurelle vague avec l'entrée. Trouver la bonne force pour ton cas d'usage demande de l'expérimentation.

Du croquis à l'image

Un workflow img2img puissant : dessine un croquis grossier (même dans MS Paint), utilise-le comme image d'entrée avec une force de débruitage moyennement élevée, et décris la sortie souhaitée. Le croquis fournit la disposition spatiale (où sont les objets, leurs tailles relatives) pendant que l'IA remplit tous les détails artistiques. Ça rend la génération d'images IA accessible à quiconque sait dessiner un bonhomme allumette — la composition vient de toi, le rendu de l'IA.