शब्द "रेड टीमिंग" शीत युद्ध के सैन्य अभ्यासों से आता है जहां एक निर्धारित प्रतिद्वंद्वी टीम (रेड) डिफेंसिंग टीम (ब्लू) के योजनाओं पर हमला करती थी। साइबर सुरक्षा में, यह नैतिक हैकर्स को खराब इरादों वालों से पहले कमजोरियों को खोजने के अभ्यास में विकसित हुआ है। एआई रेड टीमिंग इसी दर्शन को लागू करता है: मान लें कि मॉडल में कमजोरियां हैं, फिर उन्हें व्यवस्थित रूप से खोजें। पारंपरिक पेन टेस्टिंग से मुख्य अंतर यह है कि एआई मॉडल बर्फीले, संभावनात्मक तरीकों से विफल होते हैं — कोई एकल एक्सप्लॉइट एक भाषा मॉडल को "रूट" नहीं करता है, बल्कि एक प्रमुखता के अनुकूल प्रॉम्प्ट और संदर्भों का एक भूमि होता है जहां मॉडल अप्रत्याशित या हानिकारक तरीके से व्यवहार करता है।
आधुनिक एआई रेड टीमिंग आमतौर पर कई विफलता के श्रेणियों को कवर करती है। सुरक्षा टेस्टिंग हानिकारक सामग्री उत्पादन के लिए जांच करता है — क्या आप मॉडल को हथियारों के निर्देश, विस्तृत स्व-हानि सामग्री या बच्चों के उत्पीड़न सामग्री उत्पन्न करने के लिए प्रेरित कर सकते हैं? बायस और न्याय की जांच यह जांचता है कि मॉडल विभिन्न जनसांख्यिकीय समूहों के प्रति अलग व्यवहार करता है या स्टीरियोटाइप को बल में देता है। तथ्यता टेस्टिंग विशेष रूप से चिकित्सा और कानून जैसे उच्च-महत्व के क्षेत्रों में आत्मविश्वास वाले हैल्यूसिनेशन की तलाश करता है। गोपनीयता टेस्टिंग यह जांचता है कि मॉडल अपने प्रशिक्षण डेटा से व्यक्तिगत जानकारी को वापस देगा या नहीं (अनुसंधानकर्ताओं ने GPT-3 से वर्तमान प्रशिक्षण डेटा को अपने रूप में निकाला है, जिसमें फोन नंबर और ईमेल पते शामिल हैं)। और क्षमता मूल्यांकन यह जांचता है कि मॉडल वास्तव में खतरनाक कार्यों जैसे बायोवीपन डिज़ाइन या साइबर हमलों के साथ सहायता कर सकता है — ये मूल्यांकन यह बताते हैं कि कोई मॉडल किसी भी तरह से तैयार करने के लिए सुरक्षित है या नहीं।
यह अभ्यास तेजी से व्यावसायिक बन रहा है। एंथ्रोपिक, ओपनएआई, गूगल डीपमाइंड और मेटा सभी महत्वपूर्ण रिलीज के पहले अंतर्निहित रेड टीम चलाते हैं, और वे बाहरी विशेषज्ञों को बढ़ाते जा रहे हैं। एंथ्रोपिक ने क्लॉउड के प्री-रिलीज मूल्यांकन के लिए बायोसिक्यूरिटी और साइबर सुरक्षा के क्षेत्र के विशेषज्ञों के साथ साझेदारी की। ओपनएआई ने GPT-4 के लिए एक बड़े पैमाने पर बाहरी रेड टीमिंग अभ्यास चलाया जिसमें 50 से अधिक विशेषज्ञ शामिल थे। हैकरवन और स्केल एआई जैसी स्टार्टअप ने रेड-टीमिंग-एस-ए-सर्विस प्लेटफॉर्म बनाए हैं। इसके अलावा, स्वतंत्र एआई रेड टीमर्स के एक बढ़ते हुए समुदाय के भी हैं — DEF CON के 2023 जेनेरेटिव एआई रेड टीमिंग इवेंट में हजारों भागीदार एक साथ कई प्रदाताओं के मॉडलों की जांच कर रहे थे, और इसने कंपनियों द्वारा बाद में ठीक किए गए वास्तविक कमजोरियों को उजागर कर दिया।
स्वचालित रेड टीमिंग मनुष्य द्वारा परीक्षण के एक बढ़ते हुए महत्वपूर्ण पूरक है। विचार यह है कि एक एआई मॉडल का उपयोग दुश्मन प्रॉम्प्ट उत्पन्न करने के लिए किया जाए जो दूसरे मॉडल की रक्षा की जांच करता है। तकनीकों में ग्रेडिएंट आधारित हमले (ग्रीडी कोऑर्डिनेट ग्रेडिएंट, या GCG, ज