मूल विचार बहुत सरल लगता है। एक वास्तविक छवि लें, इसमें चरण-दर-चरण गाउसियन शोर जोड़ें जब तक यह शुद्ध स्टैटिक बन जाए, फिर एक न्यूरल नेटवर्क को प्रशिक्षित करें ताकि यह प्रत्येक चरण को उल्टा कर सके। जनन समय पर, आप यादृच्छिक शोर से शुरू करते हैं और सीखे हुए शोर दूर करने की प्रक्रिया को आगे बढ़ाते हैं। मॉडल कभी एक बार में छवि को नहीं बनाता है — यह दर्जनों या सैकड़ों पुनरावृत्ति अनुकूलन चरणों के माध्यम से एक छवि बनाता है, प्रत्येक चरण शोर भरे असंगत बिंदु को कुछ अधिक संगत बनाने की ओर धकेलता है। इस पुनरावृत्ति प्रकृति दृष्टिकोण की शक्ति और कमजोरी दोनों है — यह अत्यधिक उच्च गुणवत्ता वाले आउटपुट उत्पन्न करता है, लेकिन प्रत्येक छवि के लिए नेटवर्क में कई आगे के पास की आवश्यकता होती है, जिससे एकल पास आर्किटेक्चर की तुलना में जनन धीमा हो जाता है।
व्यवहार में, आधुनिक डिफ्यूजन मॉडल तत्काल पिक्सल स्पेस में काम नहीं करते हैं। लैटेंट डिफ्यूजन (स्थायी डिफ्यूजन में "स्थायी") एक प्रशिक्षित ऑटोएंकोडर का उपयोग करके छवियों को बहुत छोटे लैटेंट प्रतिनिधित्व में संपीड़ित करता है, फिर उस जगह पर डिफ्यूजन प्रक्रिया चलाता है। यही उच्च विभेदन क्षमता वाली जनन को संभव बनाता है — पिक्सल स्पेस में 512x512 छवि के डिफ्यूजन के लिए प्रति चरण 786,432 मानों पर काम करना आवश्यक होता है, जबकि लैटेंट स्पेस इसे 64x64x4 या लगभग 16,384 मानों तक संपीड़ित कर सकता है। ऑटोएंकोडर अंत में पिक्सल में मानों के मैपिंग का निपटारा करता है। DALL-E 3, Midjourney, Flux और आजकल के लगभग हर प्रतिस्पर्धी छवि जनक में कुछ रूप में लैटेंट डिफ्यूजन का उपयोग किया जाता है।
कंडीशनिंग आप आउटपुट को नियंत्रित करने के तरीका है। टेक्स्ट-टू-इमेज मॉडल आपके प्रॉम्प्ट को एक टेक्स्ट एंकोडर (आमतौर पर CLIP या T5) के उपयोग से एन्कोड करते हैं, फिर प्रत्येक चरण में एक्रॉस-एटेंशन के माध्यम से डिनोइज़िंग नेटवर्क में इन एम्बेडिंग्स को इंजेक्ट करते हैं। क्लासिफायर-फ्री गाइडेंस (CFG) इसे अच्छा काम करने के लिए विचार है — प्रशिक्षण के दौरान, मॉडल कभी-कभी कंडीशनिंग सिग्नल को छोड़ देता है ताकि यह अनकंडीशन्ड जनन भी सीख सके। अनुमान देने के दौरान, आप दोनों कंडीशन्ड और अनकंडीशन्ड पूर्वानुमान की गणना करते हैं, फिर अनकंडीशन्ड से बाहर अनुमान लगाते हैं। उच्च CFG स्केल आपके प्रॉम्प्ट को अधिक वास्तविक रूप से अनुसरण करता है, लेकिन बहुत आगे बढ़ जाने पर आपको अत्यधिक संतृप्त और आर्टिफैक्ट भरी छवियां मिलती हैं। यही वह "गाइडेंस स्केल" स्लाइडर है जो आप हर डिफ्यूजन UI में देखते हैं।
डिनोइज़िंग नेटवर्क की आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किट