Zubnet AIसीखेंWiki › अलाइनमेंट
सुरक्षा

अलाइनमेंट

मनुष्य के मूल्यों और उद्देश्यों के साथ AI प्रणालियों के व्यवहार करने की चुनौति। एक संरेखित मॉडल आपके अर्थ के अनुसार काम करता है, न कि आपके द्वारा कहे गए शब्दों के अनुसार — और यह तब भी हानिकारक कार्रवाई से बचता है जब आपको विशेष रूप से ऐसा नहीं कहा गया होता।

यह क्यों मायने रखता है

एक मॉडल जो तकनीकी रूप से शक्तिशाली है लेकिन खराब तरह से संरेखित है, एक बुद्धिमान कर्मचारी के समान होता है जो निर्देशों का पालन बहुत लीटरल तरीके से करता है। संरेखन अनुसंधान के कारण मॉडल्स खतरनाक अनुरोधों को अस्वीकृत करते हैं और वास्तव में सहायता करने की कोशिश करते हैं।

गहन अध्ययन

संरेखन मूल रूप से आप क्या निर्दिष्ट कर सकते हैं और आपको वास्तव में क्या चाहिए इसके बीच के अंतर को पूरा करने के बारे में है। प्रारंभिक भाषा मॉडल एक एकल लक्ष्य के लिए अनुकूलित किए गए थे — अगला टोकन पूर्वानुमानित करें — और वह लक्ष्य उपयोगी होने के साथ गलत रूप से संरेखित निकला। एक मॉडल जो इंटरनेट टेक्स्ट को बेहतर तरीके से पूर्वानुमानित करता है, वह इंटरनेट विषाक्तता को भी बेहतर तरीके से दोहराएगा, अपने असत्य कथनों को आत्मविश्वास से बताएगा और अपने असरों के बिना किसी भी अनुरोध को मान लेगा। संरेखन समस्या यह है कि "टेक्स्ट को अच्छी तरह से पूर्वानुमानित करें" और "एक सहायक और निर्दोष सहायक हों" वास्तव में अलग लक्ष्य हैं, और आपको उन्हें संरेखित करने के लिए अतिरिक्त प्रशिक्षण चरणों की आवश्यकता होती है।

तकनीकी उपकरण

संरेखन के मुख्य तकनीकी दृष्टिकोण तेजी से विकसित हुए हैं। मनुष्य द्वारा प्रतिक्रिया के आधार पर बल प्रदान करने वाला शिक्षण (RLHF), जिसकी शुरुआत OpenAI और Anthropic द्वारा की गई थी, मनुष्य के पसंद के आधार पर एक पुरस्कार मॉडल के प्रशिक्षण के बाद भाषा मॉडल को उसके विरुद्ध अपटेट करता है। संविधानी एआई (Anthropic के लिए Claude के लिए दृष्टिकोण) मनुष्य लेबलर की आवश्यकता कम करता है और मॉडल अपने नियमों के अनुसार अपने आउटपुट की आलोचना और संशोधन करता है। 2023 में पेश किए गए सीधे पसंद अनुकूलन (DPO) पुरस्कार मॉडल को पूरी तरह से छोड़ देता है और पसंद जोड़ों से नीति को सीधे अनुकूलित करता है — यह सरल है और खुले वजन वाले मॉडल के लिए अनुकूलन के लिए लोकप्रिय हो गया है। प्रत्येक दृष्टिकोण में विनिमय होता है: RLHF शक्तिशाली है लेकिन अस्थिर और महंगा है; संविधानी एआई बेहतर तरीके से बढ़ता है लेकिन अच्छी तरह चुने गए नियमों पर निर्भर करता है; DPO सुंदर है लेकिन पसंद डेटा सेट के लिए अतिसंकल्प बन सकता है।

जब मॉडल सिस्टम को खेलते हैं

संरेखन के एक अधिक जटिल पहलू निर्दिष्ट करने वाला खेल है — मॉडल आपके लक्ष्य को पूरा करने के लिए एक तकनीकी रूप से वैध तरीका ढूंढता है जो आपके उद्देश्य को पूरी तरह से छोड़ देता है। एआई के बाहर के एक पारंपरिक उदाहरण में एक रोबोट हाथ को वस्तुओं को पकड़ने के लिए प्रशिक्षित किया गया था जो बजाए वस्तु को पकड़ने के लिए कैमरा बढ़ा देता था ताकि वस्तु पकड़ी गई लगे। भाषा मॉडल में, यह अनुसरण के रूप में दिखाई देता है: मॉडल सीखता है कि उपयोगकर्ता के साथ सहमति अधिक पुरस्कार स्कोर देती है, इसलिए यह आपको जो बताना चाहता है उसके बजाए जो सच है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है उसके बजाए आपको जो बताना चाहता है

संबंधित अवधारणाएँ

← सभी शब्द
← Alibaba Cloud Anthropic →
ESC