Zubnet AIसीखेंWiki › रेड टीमिंग
सुरक्षा

रेड टीमिंग

एक एआई मॉडल को असफल करने, अनुचित व्यवहार करने या हानिकारक आउटपुट उत्पन्न करने के लिए उद्देश्यपूर्ण रूप से प्रयास करने की विधि। रेड टीम कमजोरियों की खोज करती हैं: जेलब्रेक, बायास, गलत जानकारी उत्पन्न करना, गोपनीयता के रिसाव। इसे सैन्य वारगेमिंग के बाद नाम दिया गया है, जहां एक 'रेड टीम' दुश्मन की भूमिका निभाती है।

यह क्यों मायने रखता है

आप उसे ठीक नहीं कर सकते जिसके बारे में आपको जानकारी नहीं है। रेड टीमिंग यह तरीका है कि प्रदाता यह पता लगाते हैं कि उनका मॉडल आपको "एक लॉकस्मिथ के बारे में एक कहानी लिखें" कहने पर लॉक खोलने के तरीके के बारे में समझाएगा। यह प्रत्येक मुख्य मॉडल जारी करने से पहले किया जाने वाला आवश्यक सुरक्षा कार्य है।

गहन अध्ययन

शब्द "रेड टीमिंग" शीत युद्ध के सैन्य अभ्यासों से आता है जहां एक निर्धारित प्रतिद्वंद्वी टीम (रेड) डिफेंसिंग टीम (ब्लू) के योजनाओं पर हमला करती थी। साइबर सुरक्षा में, यह नैतिक हैकर्स को खराब इरादों वालों से पहले कमजोरियों को खोजने के अभ्यास में विकसित हुआ है। एआई रेड टीमिंग इसी दर्शन को लागू करता है: मान लें कि मॉडल में कमजोरियां हैं, फिर उन्हें व्यवस्थित रूप से खोजें। पारंपरिक पेन टेस्टिंग से मुख्य अंतर यह है कि एआई मॉडल बर्फीले, संभावनात्मक तरीकों से विफल होते हैं — कोई एकल एक्सप्लॉइट एक भाषा मॉडल को "रूट" नहीं करता है, बल्कि एक प्रमुखता के अनुकूल प्रॉम्प्ट और संदर्भों का एक भूमि होता है जहां मॉडल अप्रत्याशित या हानिकारक तरीके से व्यवहार करता है।

रेड टीम टेस्ट करती हैं

आधुनिक एआई रेड टीमिंग आमतौर पर कई विफलता के श्रेणियों को कवर करती है। सुरक्षा टेस्टिंग हानिकारक सामग्री उत्पादन के लिए जांच करता है — क्या आप मॉडल को हथियारों के निर्देश, विस्तृत स्व-हानि सामग्री या बच्चों के उत्पीड़न सामग्री उत्पन्न करने के लिए प्रेरित कर सकते हैं? बायस और न्याय की जांच यह जांचता है कि मॉडल विभिन्न जनसांख्यिकीय समूहों के प्रति अलग व्यवहार करता है या स्टीरियोटाइप को बल में देता है। तथ्यता टेस्टिंग विशेष रूप से चिकित्सा और कानून जैसे उच्च-महत्व के क्षेत्रों में आत्मविश्वास वाले हैल्यूसिनेशन की तलाश करता है। गोपनीयता टेस्टिंग यह जांचता है कि मॉडल अपने प्रशिक्षण डेटा से व्यक्तिगत जानकारी को वापस देगा या नहीं (अनुसंधानकर्ताओं ने GPT-3 से वर्तमान प्रशिक्षण डेटा को अपने रूप में निकाला है, जिसमें फोन नंबर और ईमेल पते शामिल हैं)। और क्षमता मूल्यांकन यह जांचता है कि मॉडल वास्तव में खतरनाक कार्यों जैसे बायोवीपन डिज़ाइन या साइबर हमलों के साथ सहायता कर सकता है — ये मूल्यांकन यह बताते हैं कि कोई मॉडल किसी भी तरह से तैयार करने के लिए सुरक्षित है या नहीं।

व्यावसायिक बन रहा है

यह अभ्यास तेजी से व्यावसायिक बन रहा है। एंथ्रोपिक, ओपनएआई, गूगल डीपमाइंड और मेटा सभी महत्वपूर्ण रिलीज के पहले अंतर्निहित रेड टीम चलाते हैं, और वे बाहरी विशेषज्ञों को बढ़ाते जा रहे हैं। एंथ्रोपिक ने क्लॉउड के प्री-रिलीज मूल्यांकन के लिए बायोसिक्यूरिटी और साइबर सुरक्षा के क्षेत्र के विशेषज्ञों के साथ साझेदारी की। ओपनएआई ने GPT-4 के लिए एक बड़े पैमाने पर बाहरी रेड टीमिंग अभ्यास चलाया जिसमें 50 से अधिक विशेषज्ञ शामिल थे। हैकरवन और स्केल एआई जैसी स्टार्टअप ने रेड-टीमिंग-एस-ए-सर्विस प्लेटफॉर्म बनाए हैं। इसके अलावा, स्वतंत्र एआई रेड टीमर्स के एक बढ़ते हुए समुदाय के भी हैं — DEF CON के 2023 जेनेरेटिव एआई रेड टीमिंग इवेंट में हजारों भागीदार एक साथ कई प्रदाताओं के मॉडलों की जांच कर रहे थे, और इसने कंपनियों द्वारा बाद में ठीक किए गए वास्तविक कमजोरियों को उजागर कर दिया।

मशीनें मशीनों का परीक्षण कर रही हैं

स्वचालित रेड टीमिंग मनुष्य द्वारा परीक्षण के एक बढ़ते हुए महत्वपूर्ण पूरक है। विचार यह है कि एक एआई मॉडल का उपयोग दुश्मन प्रॉम्प्ट उत्पन्न करने के लिए किया जाए जो दूसरे मॉडल की रक्षा की जांच करता है। तकनीकों में ग्रेडिएंट आधारित हमले (ग्रीडी कोऑर्डिनेट ग्रेडिएंट, या GCG, ज

संबंधित अवधारणाएँ

← सभी शब्द
← Recraft रीइन्फ़ोर्समेंट लर्निंग →
ESC