तंत्र: इनपुट छवि लें, इसे latent space में encode करें (VAE encoder के माध्यम से), "denoising strength" पैरामीटर के अनुपात में noise जोड़ें (0.0 = कोई परिवर्तन नहीं, 1.0 = शुद्ध noise = text-to-image), फिर text prompt पर conditioned होकर denoise करें। 0.3 strength पर, आउटपुट सूक्ष्म संशोधनों के साथ इनपुट से बहुत मिलता है। 0.8 strength पर, यह काफ़ी हद तक पुनः कल्पित है लेकिन बुनियादी composition बनाए रखता है।
Denoising strength मुख्य पैरामीटर है: यह नियंत्रित करता है कि आउटपुट इनपुट से कितना भटक सकता है। कम strength (0.2–0.4): मामूली शैली परिवर्तन, रंग समायोजन, सूक्ष्म विवरण जोड़ना। मध्यम strength (0.5–0.7): composition को संरक्षित करते हुए महत्वपूर्ण शैली परिवर्तन। उच्च strength (0.8–1.0): बड़ी पुनः कल्पना, इनपुट से केवल अस्पष्ट संरचनात्मक समानता। अपने उपयोग के मामले के लिए सही strength खोजने के लिए प्रयोग आवश्यक है।
एक शक्तिशाली img2img workflow: एक मोटा sketch बनाएँ (यहाँ तक कि MS Paint में भी), इसे मध्यम-उच्च denoising strength के साथ इनपुट छवि के रूप में उपयोग करें, और वांछित आउटपुट का वर्णन करें। Sketch spatial layout प्रदान करता है (वस्तुएँ कहाँ हैं, उनका सापेक्ष आकार) जबकि AI सभी कलात्मक विवरण भरता है। यह AI image generation को किसी भी व्यक्ति के लिए सुलभ बनाता है जो stick figure बना सकता है — composition आपसे आता है, rendering AI से।