डीपफेक्स जेनेरेटिव एआई की रचनात्मक क्षमता की अंधेरी ओर हैं। इनका उपयोग ठगी, अनैच्छिक निजी छवि, राजनीतिक गुंडागर्दी और पहचान चोरी के लिए किया गया है। अब तकनीक इतनी उपलब्ध हो गई है कि कोई भी लैपटॉप वाला व्यक्ति विश्वासजनक फेक्स बना सकता है, जिससे पहचान, वॉटरमार्किंग और कानूनी ढांचा तत्काल प्राथमिकता बन गए हैं।
शब्द "डीपफेक" लगभग 2017 में जनता के शब्दकोश में आया, जब एक रेडिट यूजर ने न्यूरल नेटवर्क का उपयोग करके पोर्नोग्राफिक वीडियो में प्रसिद्ध व्यक्तियों के चेहरों को बदल दिया। उस शुरुआती तकनीक ने ऑटोएंकोडर पर निर्भर किया था — दो अलग-अलग चेहरों पर दो नेटवर्क को ट्रेन करें, फिर डिकोडर को एक चेहरे को दूसरे पर मैप करने के लिए स्वैप करें। यह खराब था, स्रोत वीडियो के घंटों की आवश्यकता थी, और बाल और जबड़े के चारों ओर स्पष्ट अर्टिफैक्ट उत्पन्न करता था। सात साल के भीतर, तकनीक एक निर्जीव रहस्य से एक औद्योगिक क्षमता में परिवर्तित हो गई। आधुनिक फेस-स्वैप टूल्स डिफ्यूजन मॉडल का उपयोग करते हैं और केवल एक संदर्भ फोटो की आवश्यकता होती है। एलेवेंटलैब्स जैसी कंपनियों के वॉइस क्लोनिंग सेवाएं 30 सेकंड के नमूने से किसी के आवाज के विश्वसनीय रिप्लिका बना सकती हैं। पाठ से पूर्ण वीडियो उत्पादन — सोरा, क्लिंग, या विडू के बारे में सोचें — ऐसे लोगों के फुटेज बना सकता है जो कभी नहीं थे और जो कभी नहीं हुआ था।
हर डीपफेक पहचान विधि के समान संरचनात्मक अवसर होता है: यह वर्तमान पीढ़ी के संश्लेषण उपकरणों से अर्टिफैक्ट पर ट्रेन किया जाता है, और अगली पीढ़ी उन अर्टिफैक्ट को दूर कर देती है। प्रारंभिक पहचानकर्ता असंगत बत्तख विन्यास की तलाश में थे, लेकिन जेनरेटर्स जल्दी से प्राकृतिक बत्तख बनाने के लिए सीख गए। आवृत्ति-डोमेन विश्लेषण जीएनएन के अर्टिफैक्ट को पकड़ लेता है, लेकिन डिफ्यूजन मॉडल अलग स्पेक्ट्रल हस्ताक्षर उत्पन्न करते हैं। सबसे मजबूत दृष्टिकोण शारीरिक संकेतों की तलाश में है — त्वचा में प्रतिबंधित रक्त प्रवाह पैटर्न, आंखों में प्रकाश परावर्तन के भौतिकी या बोली बोलते समय दांतों और जीभ के असंगतता — लेकिन यहां तक कि ये भी एक शेल्फ लाइफ है। हाइव, सेंसिटी और रियलिटी डिफेंडर जैसी कंपनियां व्यावसायिक पहचान प्रदान करती हैं, और उनकी विश्वसनीयता अब तक के अग्रणी उत्पादन उपकरणों के खिलाफ वास्तव में घट रही है। असहज सच्चाई यह है कि पिक्सल-स्तर पर पहचान इस समस्या को हल नहीं करेगी।
अधिक आशावादी लंबे समय तक के दृष्टिकोण मूल है: मीडिया के स्रोत को साबित करना बजाय इसे बाद में झूठा साबित करने की कोशिश करना। कॉन्टेंट मूल और वास्तविकता के लिए संघ (C2PA) ने अपनाने के समय मीडिया के लिए एक गुप्त हस्ताक्षर मानक विकसित किया है। सोनी, निकोन और लीका जैसे कैमरा निर्माताओं ने ऐसे सेंसर बिक्री कर दिए हैं जो C2PA हस्ताक्षर को डालते हैं। एडोब, माइक्रोसॉफ्ट और गूगल ने प्लेटफॉर्म तरफ से मानक अपना लिया है। विचार सीधा है — यदि एक फोटो कैमरा सेंसर से प्रकाशन तक एक सत्यापित चेन ऑफ़ केस ले जाता है, तो आपको जानता है कि यह वास्तविक है भले ही एआई-जेनरेटेड विकल्प पिक्सल-पर-पिक्सल बेहतर हों। चुनौती अपनाना है। ऑनलाइन साझा किए गए अधिकांश फोटो स्क्रीनशॉट, कट और री-अपलोड होते हैं जो मेटाडेटा को हटा देते हैं। एक ऐसे दुनिया के निर्माण में जहां मूल सार्वभौमिक और उपयोगी है, बुनियादी बदलाव की आवश्यकता होगी जो वर्षों ले लेगी।
डीपफेक से वास्तविक नुकसान बराबर वितरित नहीं होता है। सबसे आम उपयोग, बिल्कुल, असहमत इंटीमेट इमेजरी है — जो अधिकांश लड़कियों के लिए लक्ष्य होता है। अध्ययनों में पाया गया है कि ऑनलाइन डीपफेक वीडियो में 90% से अधिक असहमत पोर्नोग्राफी है। इसके अलावा, वॉ