Zubnet AIसीखेंWiki › पूर्वाग्रह
सुरक्षा

पूर्वाग्रह

AI आउटपुट में व्यवस्थित पैटर्न जो ट्रेनिंग डेटा में मौजूद सामाजिक भेदभाव को प्रतिबिम्बित या बढ़ाते हैं। भेदभाव टेक्स्ट जेनरेशन, इमेज क्रिएशन, रिक्रूटमेंट टूल्स और कहीं भी मॉडल निर्णय लेते हैं जो लोगों के अलग-अलग प्रभाव डालते हैं, वहां सामना कर सकता है।

यह क्यों मायने रखता है

यदि ट्रेनिंग डेटा कहता है कि नर्स महिलाएं होती हैं और इंजीनियर पुरुष होते हैं, तो मॉडल उसे बरकरार रखेगा। बायस हमेशा स्पष्ट नहीं होता — यह शब्द संबंध, डिफ़ॉल्ट मान्यताओं और जो दर्शाया जाता है उसमें छिपा होता है।

गहन अध्ययन

AI प्रणालियों में पूर्वाग्रह कई स्रोतों से आता है, और प्रशिक्षण डेटा केवल सबसे स्पष्ट एक है। हां, यदि आपका कॉर्पस कुछ जातियों या दृष्टिकोणों को अत्यधिक प्रतिनिधित्व करता है, तो मॉडल उसे प्रतिबिंबित करेगा। लेकिन पूर्वाग्रह निर्देशन के माध्यम से भी प्रवेश करता है (प्रशिक्षण उदाहरणों के मानव मूल्यांकन अपनी अपनी पूर्वधारणाओं ले आते हैं), मूल्यांकन के माध्यम से (अंग्रेजी बोलने की जांच करने वाले मानक जो योरूबा की जांच नहीं करते हैं), तैनाती के संदर्भ में (एक रिज्यूमे स्क्रीनर जो कंपनी के ऐतिहासिक विकृत भर्ती डेटा पर प्रशिक्षित किया गया है), और यहां तक कि लॉस फंक्शन के आंतरिक रूप से भी (एंगेजमेंट के लिए अपटिमाइज़ करना ध्वनित या विभाजक सामग्री को बढ़ा सकता है)। इन विभिन्न वेक्टर को समझना महत्वपूर्ण है क्योंकि प्रत्येक के लिए अलग रोधन रणनीति की आवश्यकता होती है।

अदृश्य के मापन

पूर्वाग्रह के मापन और कम करने के तकनीकी दृष्टिकोण बहुत अधिक परिपक्व हो गए हैं। शब्द एम्बेडिंग परीक्षण जैसे WEAT (Word Embedding Association Test) ने 2017 में दिखाया कि word2vec और GloVe एम्बेडिंग "मेल" को "कैरियर" से और "फीमेल" को "परिवार" से जोड़ते हैं, जो मनोविज्ञान के अंतर्निहित संघटन परीक्षण के समान होता है। आधुनिक LLMs के लिए मूल्यांकन कठिन है। शोधकर्ता BBQ (QA के लिए बायस बेंचमार्क), WinoBias और RealToxicityPrompts जैसे मानकों का उपयोग स्टीरियोटाइप के लिए परीक्षण करने के लिए करते हैं, लेकिन ये केवल उन पूर्वाग्रहों को पकड़ सकते हैं जिनके लिए कोई परीक्षण करने के लिए चाहता है। रेड टीमिंग और प्रतिकूल मूल्यांकन कुछ अंतर को भर सकते हैं, लेकिन संभावित पूर्वाग्रहों की लंबी पूंछ प्रभावी रूप से अपरिमित है।

अतिसंशोधन के फंसे

पूर्वाग्रह से छुटकारा पाने की तकनीकें वास्तव में व्यापक बदलाव लेकर आती हैं जिनके बारे में अभ्यासकों को समझना आवश्यक है। डेटा स्तर पर हस्तक्षेप — पुनर्संतुलन, अप्रतिनिधित्व वाले समूहों के अभिन्नता के साथ वृद्धि, विषाक्त सामग्री के फिल्टर — मदद कर सकते हैं लेकिन यह वास्तविक सांस्कृतिक संदर्भ को हटा देने या कृत्रिम रूप से साफ वितरण बनाने का खतरा भी ले सकते हैं। मॉडल स्तर पर हस्तक्षेप जैसे विरोधाभासी सीखना या बायस विशिष्ट पसंद जोड़ी पर DPO स्टीरियोटाइप कम कर सकते हैं लेकिन कभी-कभी अतिसंशोधन करते हैं, जो अजीब ढंग से बचाव करते हैं या जब वे संबंधित होते हैं तो वास्तविक सांख्यिकीय अंतरों को अस्वीकार करते हैं (एक चिकित्सा मॉडल को जानना चाहिए कि एनीमिया की घटना वंशानुक्रम के आधार पर भिन्न होती है)। गूगल के जनवरी 2024 में Gemini छवि उत्पादन विवाद — जातीय रूप से विविध नाजी सैनिक उत्पन्न करना — अतिसंशोधन के गलत उदाहरण के रूप में एक जीवंत उदाहरण था। लक्ष्य यह नहीं है कि मॉडल अंतर के अस्तित्व को झूठा बनाएं; यह यह रोकना है कि वे व्यक्ति के बारे में अनुचित धारणाएं बनाएं जो समूह सदस्यता के आधार पर होते हैं।

अंग्रेजी के बाहर

पूर्वाग्रह के सबसे महत्वपूर्ण और कम चर्चित रूपों में भाषा

संबंधित अवधारणाएँ

← सभी शब्द
← बेंचमार्क Black Forest Labs →
ESC