GAN: परिभाषा और अर्थ — AI विकी

एक मॉडल आर्किटेक्चर जहां दो न्यूरल नेटवर्क प्रतिस्पर्धा करते हैं: एक जेनरेटर झूठे डेटा बनाता है, और एक डिस्क्रिमिनेटर वास्तविक से झूठे के बीच अंतर बताने की कोशिश करता है। इस प्रतिस्पर्धी खेल के माध्यम से, जेनरेटर वास्तविक आउटपुट बनाने में बेहतर हो जाता है। 2014 से ~2022 तक इमेज जेनरेशन में शासन करता रहा।

यह क्यों मायने रखता है

GANs वास्तविक एआई छवि उत्पादन के लिए पहले वाले थे और अभी भी कुछ वास्तविक समय अनुप्रयोगों में उपयोग किया जाता है। लेकिन गुणवत्ता-निर्णयक कार्यों के लिए डिफ्यूजन मॉडल उन्हें काफी हद तक बदल गए हैं क्योंकि GANs प्रशिक्षण के लिए कठिन होते हैं और अपने आउटपुट में कम विविध होते हैं।

गहन अध्ययन

GAN सेटअप एक खेल सिद्धांत से निकला एक मिनिमैक्स खेल है। जेनरेटर यादृच्छिक शोर (एक लैटेंट वेक्टर, आमतौर पर गौसियन से नमूना लिया जाता है) लेकर डेटा नमूना में एक छवि के रूप में मैप करता है। डिस्क्रिमिनेटर को प्रशिक्षण सेट से वास्तविक नमूने और जेनरेटर से झूठे नमूने प्राप्त होते हैं, और प्रत्येक नमूने के वास्तविक होने की संभावना निकालता है। जेनरेटर को डिस्क्रिमिनेटर की त्रुटि को अधिकतम करने के लिए प्रशिक्षित किया जाता है, जबकि डिस्क्रिमिनेटर को इसे न्यूनतम करने के लिए प्रशिक्षित किया जाता है। सिद्धांत में, यह एक नैश संतुलन में जाता है जहां जेनरेटर वास्तविक डेटा से अलग नहीं किया जा सकता है और डिस्क्रिमिनेटर 50/50 के अनुमान तक कम हो जाता है। व्यावहार में, वहां पहुंचना एक अलग कहानी है।

प्रशिक्षण समस्या

कई सालों तक, GAN के लिए प्रशिक्षण अस्थिरता एक प्रमुख चुनौती रही। मोड कोलेप्शन — जहां जेनरेटर केवल संभावित आउटपुट के एक संकरे टुकड़े उत्पन्न करना सीख जाता है — प्रारंभिक आर्किटेक्चर को प्रभावित करता रहा। अगर डिस्क्रिमिनेटर बहुत जल्दी बहुत मजबूत हो जाता है, तो जेनरेटर के लिए ग्रेडिएंट सिग्नल गायब हो जाता है और सीखना रुक जाता है। अगर जेनरेटर डिस्क्रिमिनेटर को धोखा देने के लिए एक सस्ता ट्रिक ढूंढ लेता है, तो वह इसे लगातार उपयोग करता रहता है बजाय विविध आउटपुट सीखने के। वैसर्मैन GANs (WGAN) इसके साथ एक अलग लॉस फंक्शन के साथ इसका समाधान करते हैं जो अधिक महत्वपूर्ण ग्रेडिएंट प्रदान करता है। प्रोग्रेसिव ग्रोविंग (ProGAN) नीचे से ऊपर तक छवियों के निर्माण के साथ ट्रेनिंग को बहुत अधिक स्थिर करता है। एनवीडिया के स्टाइलज़न और स्टाइलज़न 2 इसे आगे तक शोधित करते हैं, जिससे पहली बार लोगों को एआई छवि उत्पादन के गंभीरता के बारे में जागरूकता हुई।

गति का लाभ

GANs की वास्तविक शक्ति हमेशा गति रही है। क्योंकि उत्पादन जेनरेटर नेटवर्क के माध्यम से एक एकल फॉरवर्ड पास है, एक प्रशिक्षित GAN मिलीसेकंड में एक छवि उत्पन्न कर सकता है। इसकी तुलना डिफ्यूजन मॉडल्स से करें, जिन्हें 20-50 इटरेटिव पास की आवश्यकता होती है। यही कारण है कि GANs अभी भी वास्तविक समय अनुप्रयोगों में एक निश्चित स्थान रखते हैं: वीडियो गेम टेक्सचर अपस्केलिंग (एनवीडिया डीएलएसएस एक GAN-जैसी आर्किटेक्चर का उपयोग करता है), वास्तविक समय चेहरा फिल्टर, मोबाइल एप्लिकेशन में स्टाइल ट्रांसफर, और सुपर-रिज़ॉल्यूशन। जब आपको 30+ FPS पर छवियों की आवश्यकता होती है, तो डिफ्यूजन के इटरेटिव रिफाइनमेंट लूप बिना भारी डिस्टिलेशन के बहुत धीमा हो जाता है।

आईएएन गुडफेलो ने 2014 में GANs का परिचय दिया, और आर्किटेक्चर अत्यधिक विकास के माध्यम से गुजरा: DCGAN ने कनवल्यूशनल संरचना लाई (2015), स्थिति-विशिष्ट जेनरेटर के लिए स्थिति-विशिष्ट GANs के साथ विकास किया, पिक्सटूपिक्स और साइकलज़न ने छवि-से-छवि अनुवाद नियंत्रित किया, बिगज़न ने इमेजनेट की गुणवत्ता तक पैमाना बढ़ा दिया, और स्टाइलज़न ने फोटो वास्तविकता वाले चेहरों को आम बात बना दिया। लगभग आठ सालों तक, अगर आपने एक एआई-जेनरेटेड छवि देखी, तो वह अधिकतर एक GAN से आई होगी। डिफ्यूजन की ओर बदलाव इसलिए हुआ क्योंकि डिफ्यूजन मॉडल्स ने GANs की असंभव समस्याओं को हल किया: प्रशिक्षण स्थिरता, आउटपुट विविधता, और सूक्ष्म टेक्स्ट स्थिति। आपको विरोधी प्रशिक्षण के ब

GAN

यह क्यों मायने रखता है

गहन अध्ययन

प्रशिक्षण समस्या

गति का लाभ

संबंधित अवधारणाएँ