डिफ़्यूज़न मॉडल: परिभाषा और अर्थ — AI विकी

एक प्रकार का जननात्मक मॉडल जो शुद्ध शोर से शुरू करके धीरे-धीरे इसे हटाकर चित्र (या वीडियो, ऑडियो) बनाता है जब तक एक संगत आउटपुट दिखाई देता है। मॉडल वास्तविक डेटा में शोर जोड़ने की प्रक्रिया को उल्टा करना सीखता है। स्टेबल डिफ्यूजन, DALL-E 3 और मिडजर्नी सभी इस दृष्टिकोण के विभिन्न संस्करणों का उपयोग करते हैं।

यह क्यों मायने रखता है

डिफ्यूजन मॉडल्स ने 2022 के आसपास जेनरेटिव एडवर्सरियल नेटवर्क्स (GANs) के स्थान पर ले लिया और छवि उत्पादन के मुख्य तकनीक के रूप में बन गए। वे अधिक विविध और नियंत्रित करने योग्य आउटपुट उत्पन्न करते हैं और आज के लगभग हर छवि और वीडियो AI उपकरण के मुख्य संरचना हैं।

गहन अध्ययन

मूल विचार बहुत सरल लगता है। एक वास्तविक छवि लें, इसमें चरण-दर-चरण गाउसियन शोर जोड़ें जब तक यह शुद्ध स्टैटिक बन जाए, फिर एक न्यूरल नेटवर्क को प्रशिक्षित करें ताकि यह प्रत्येक चरण को उल्टा कर सके। जनन समय पर, आप यादृच्छिक शोर से शुरू करते हैं और सीखे हुए शोर दूर करने की प्रक्रिया को आगे बढ़ाते हैं। मॉडल कभी एक बार में छवि को नहीं बनाता है — यह दर्जनों या सैकड़ों पुनरावृत्ति अनुकूलन चरणों के माध्यम से एक छवि बनाता है, प्रत्येक चरण शोर भरे असंगत बिंदु को कुछ अधिक संगत बनाने की ओर धकेलता है। इस पुनरावृत्ति प्रकृति दृष्टिकोण की शक्ति और कमजोरी दोनों है — यह अत्यधिक उच्च गुणवत्ता वाले आउटपुट उत्पन्न करता है, लेकिन प्रत्येक छवि के लिए नेटवर्क में कई आगे के पास की आवश्यकता होती है, जिससे एकल पास आर्किटेक्चर की तुलना में जनन धीमा हो जाता है।

लैटेंट स्पेस में काम करना

व्यवहार में, आधुनिक डिफ्यूजन मॉडल तत्काल पिक्सल स्पेस में काम नहीं करते हैं। लैटेंट डिफ्यूजन (स्थायी डिफ्यूजन में "स्थायी") एक प्रशिक्षित ऑटोएंकोडर का उपयोग करके छवियों को बहुत छोटे लैटेंट प्रतिनिधित्व में संपीड़ित करता है, फिर उस जगह पर डिफ्यूजन प्रक्रिया चलाता है। यही उच्च विभेदन क्षमता वाली जनन को संभव बनाता है — पिक्सल स्पेस में 512x512 छवि के डिफ्यूजन के लिए प्रति चरण 786,432 मानों पर काम करना आवश्यक होता है, जबकि लैटेंट स्पेस इसे 64x64x4 या लगभग 16,384 मानों तक संपीड़ित कर सकता है। ऑटोएंकोडर अंत में पिक्सल में मानों के मैपिंग का निपटारा करता है। DALL-E 3, Midjourney, Flux और आजकल के लगभग हर प्रतिस्पर्धी छवि जनक में कुछ रूप में लैटेंट डिफ्यूजन का उपयोग किया जाता है।

आउटपुट को नियंत्रित करना

कंडीशनिंग आप आउटपुट को नियंत्रित करने के तरीका है। टेक्स्ट-टू-इमेज मॉडल आपके प्रॉम्प्ट को एक टेक्स्ट एंकोडर (आमतौर पर CLIP या T5) के उपयोग से एन्कोड करते हैं, फिर प्रत्येक चरण में एक्रॉस-एटेंशन के माध्यम से डिनोइज़िंग नेटवर्क में इन एम्बेडिंग्स को इंजेक्ट करते हैं। क्लासिफायर-फ्री गाइडेंस (CFG) इसे अच्छा काम करने के लिए विचार है — प्रशिक्षण के दौरान, मॉडल कभी-कभी कंडीशनिंग सिग्नल को छोड़ देता है ताकि यह अनकंडीशन्ड जनन भी सीख सके। अनुमान देने के दौरान, आप दोनों कंडीशन्ड और अनकंडीशन्ड पूर्वानुमान की गणना करते हैं, फिर अनकंडीशन्ड से बाहर अनुमान लगाते हैं। उच्च CFG स्केल आपके प्रॉम्प्ट को अधिक वास्तविक रूप से अनुसरण करता है, लेकिन बहुत आगे बढ़ जाने पर आपको अत्यधिक संतृप्त और आर्टिफैक्ट भरी छवियां मिलती हैं। यही वह "गाइडेंस स्केल" स्लाइडर है जो आप हर डिफ्यूजन UI में देखते हैं।

डिनोइज़िंग नेटवर्क की आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किटेक्चर के आर्किट

डिफ़्यूज़न मॉडल

यह क्यों मायने रखता है

गहन अध्ययन

लैटेंट स्पेस में काम करना

आउटपुट को नियंत्रित करना

संबंधित अवधारणाएँ