Le processus : (1) fournir une image originale, (2) créer un masque indiquant quelle région régénérer, (3) optionnellement fournir un prompt textuel décrivant ce qui devrait apparaître dans la région masquée, (4) le modèle débruite uniquement la zone masquée tout en gardant la zone non masquée fixe, utilisant le contexte environnant pour assurer la cohérence. Le modèle voit l'image entière (régions masquées et non masquées) pendant la génération, assurant que le nouveau contenu correspond à l'éclairage, la perspective et le style.
L'outpainting étend le canevas de l'image : imagine prendre un portrait et l'étendre pour montrer la pièce entière. Le modèle génère du nouveau contenu aux bordures qui est cohérent avec l'image existante. C'est utile pour : changer les ratios d'aspect (transformer une image carrée en paysage), ajouter du contexte à des images recadrées, et créer des vues panoramiques à partir de photos uniques. La qualité dépend de la quantité de contexte que l'image originale fournit.
Pour des résultats d'inpainting propres : masquer légèrement plus grand que la zone à changer (le modèle gère mieux les transitions avec un peu de chevauchement), fournir un prompt descriptif pour le contenu de remplacement, utiliser une force de débruitage appropriée (0.7–0.9 pour remplacer du contenu, 0.3–0.5 pour des modifications subtiles), et s'assurer que les bords du masque sont adoucis plutôt que nets pour un mélange harmonieux.