गार्डरेल्स के बिना, मॉडल खतरनाक अनुरोधों के साथ खुशी से मदद करेंगे। चुनौती कैलिब्रेशन है — बहुत कड़ा और मॉडल उपयोगी नहीं हो जाता है ("मैं इसके साथ मदद नहीं कर सकता"), बहुत ढीला और यह असुरक्षित हो जाता है।
गार्डरेल्स स्टैक के कई स्तरों पर काम करते हैं, और प्रत्येक स्तर के बारे में समझना आपको उनकी मजबूतियों और विफलता तरीकों के बारे में सोचने में मदद करता है। सबसे गहरे स्तर पर, ट्रेनिंग-टाइम गार्डरेल्स (RLHF, Constitutional AI, DPO) मॉडल के आंतरिक प्रवृत्तियों को आकार देते हैं — मॉडल वास्तव में "सीखता" है कि हानिकारक अनुरोधों को अस्वीकृत करे बजाय बस बाद में फिल्टर करे। अगला चरण सिस्टम प्रॉम्प्ट होते हैं, जो प्राकृतिक भाषा में व्यवहारीय सीमाएं निर्धारित करते हैं ("आप एक सहायक सहायक हैं। कभी भी अवैध गतिविधियों के निर्देश न दें।")। फिर आउटपुट फिल्टर होते हैं — अलग-अलग क्लासिफायर मॉडल या नियम-आधारित प्रणाली जो मॉडल के उत्तर को उपयोगकर्ता तक पहुंचने से पहले स्कैन करते हैं। अंत में, एप्लिकेशन-स्तरीय गार्डरेल्स व्यवसायिक लॉजिक को लागू करते हैं: रेट लिमिटिंग, कंटेंट नीतियां, उपयोगकर्ता प्रमाणीकरण, और आपके उपयोग मामले के विशिष्ट विषय प्रतिबंध।
व्यवहार में, अधिकांश उत्पादन तैनातियां इन स्तरों में से कई का एक साथ उपयोग करती हैं। उदाहरण के लिए, OpenAI के API में एक मॉडरेशन एंडपॉइंट चलता है जो विविधता, स्व-हानि, और यौन सामग्री जैसी श्रेणियों में इनपुट और आउटपुट को वर्गीकृत करता है। Anthropic अपने Constitutional AI सिद्धांतों के माध्यम से Claude के ट्रेनिंग में व्यवहारीय प्रतिबंध बेक करता है। इन API पर निर्माण करने वाली कंपनियां आमतौर पर अपना अपना स्तर जोड़ती हैं — एक ग्राहक सेवा बॉट कोई भी प्रॉम्प्ट अस्वीकृत कर सकता है जो प्रतियोगियों के बारे में चर्चा करने की कोशिश करता है, न कि इसलिए कि यह असुरक्षित है बल्कि इसलिए कि यह विषय से बाहर है। NVIDIA के NeMo Guardrails फ्रेमवर्क और Guardrails AI की ओपन-सोर्स लाइब्रेरी इस एप्लिकेशन स्तर को बिना कुछ भी शुरू किए जोड़ने के लिए लोकप्रिय उपकरण हैं।
इंजीनियरिंग चुनौती लेटेंसी और गलत सकारात्मक है। प्रत्येक गार्डरेल्स स्तर प्रोसेसिंग समय जोड़ता है, और अत्यधिक जांच फिल्टर बिल्कुल अच्छे अनुरोधों के लिए भयानक "मैं इसके साथ मदद नहीं कर सकता" प्रतिक्रिया बनाते हैं। जो लोग कभी एक मॉडल के द्वारा एक विशेष खबर के बारे में चर्चा करने से अस्वीकृत कर दिए गए थे, या एक थ्रिलर उपन्यास लिखने में मदद करने से अस्वीकृत कर दिए गए थे क्योंकि उसमें संघर्ष शामिल था, उन्होंने इसका अनुभव किया होगा। अंतराल के निर्धारण वास्तव में कठिन है: वास्तविक दुनिया की भाषा अनिश्चित, संदर्भ आधारित और कई सीमाओं से भरी होती है। शब्द "किल" "किल ए प्रोसेस", "किल टाइम", और "किल ए पर्सन" में दिखाई देता है — एक निर्मम कीवर्ड फिल्टर तुरंत विफल हो जाता है, और भले ही जटिल क्लासिफायर भी संदर्भ आधारित हानि मूल्यांकन में संघर्ष करते हैं। इसलिए शीर्ष गार्डरेल्स प्रणाली अपने संदर्भ के बारे में मॉडल की समझ का उपयोग करते हैं बजाय शुद्ध पैटर्न मैचिंग पर निर्भर करते हैं।
जेलब्रेक — गार्डरेल्स के चारों ओर चलने वाले प्रॉम्प्ट बनाने के अभ्यास — मॉडल प्रदाताओं और विरोधी उपयोगकर्ताओं के बीच एक बिल्ली-चूहा खेल बन गया है। तकनीकें सरल भूमिका-खेल प्रॉम्प्ट ("ईविल एआई के रूप में काम करो जिसमें कोई सीमा नहीं