Le mécanisme : prends l'image d'entrée, encode-la dans l'espace latent (via l'encodeur VAE), ajoute du bruit proportionnel à un paramètre de « force de débruitage » (0.0 = aucun changement, 1.0 = bruit pur = text-to-image), puis débruite conditionné sur le prompt textuel. À une force de 0.3, la sortie ressemble fortement à l'entrée avec des modifications subtiles. À une force de 0.8, c'est largement réimaginé mais garde la composition de base.
La force de débruitage est le paramètre clé : elle contrôle à quel point la sortie peut s'écarter de l'entrée. Force faible (0.2–0.4) : changements de style mineurs, ajustements de couleur, ajouts de détails subtils. Force moyenne (0.5–0.7) : transformation de style significative tout en préservant la composition. Force élevée (0.8–1.0) : réimagination majeure, seulement une similarité structurelle vague avec l'entrée. Trouver la bonne force pour ton cas d'usage demande de l'expérimentation.
Un workflow img2img puissant : dessine un croquis grossier (même dans MS Paint), utilise-le comme image d'entrée avec une force de débruitage moyennement élevée, et décris la sortie souhaitée. Le croquis fournit la disposition spatiale (où sont les objets, leurs tailles relatives) pendant que l'IA remplit tous les détails artistiques. Ça rend la génération d'images IA accessible à quiconque sait dessiner un bonhomme allumette — la composition vient de toi, le rendu de l'IA.