Zubnet AIसीखेंWiki › Constitutional AI
सुरक्षा

Constitutional AI

इसे भी कहा जाता है: CAI
Anthropic द्वारा विकसित एक alignment तकनीक जहाँ एक मॉडल को हर निर्णय के लिए केवल मानव प्रतिक्रिया पर निर्भर रहने के बजाय सिद्धांतों के एक सेट (एक "संविधान") का पालन करने के लिए प्रशिक्षित किया जाता है। मॉडल इन सिद्धांतों के आधार पर अपने स्वयं के आउटपुट की आलोचना और संशोधन करता है, फिर संशोधित आउटपुट पर प्रशिक्षित होता है। यह मानव लेबलर की आवश्यकता को कम करता है और alignment मानदंडों को स्पष्ट और ऑडिट योग्य बनाता है।

यह क्यों मायने रखता है

Constitutional AI RLHF की दो समस्याओं को संबोधित करता है: यह महंगा है (हर प्रशिक्षण उदाहरण के लिए मानव लेबलर) और अपारदर्शी (मानदंड लेबलर के निर्णयों में निहित हैं)। सिद्धांतों को स्पष्ट बनाकर, CAI alignment को अधिक पारदर्शी, स्केलेबल और सुसंगत बनाता है। यह Claude को प्रशिक्षित करने के तरीके का एक मुख्य हिस्सा है।

गहन अध्ययन

CAI प्रक्रिया के दो चरण हैं। पहला, सुपरवाइज़्ड लर्निंग: मॉडल प्रतिक्रियाएँ उत्पन्न करता है, फिर एक अलग instance संवैधानिक सिद्धांतों के विरुद्ध उन प्रतिक्रियाओं की आलोचना करता है ("क्या यह प्रतिक्रिया हानिकारक गतिविधियों में मदद करती है?"), और उन्हें संशोधित करता है। मॉडल को संशोधित प्रतिक्रियाओं पर फ़ाइन-ट्यून किया जाता है। दूसरा, AI फ़ीडबैक से RL (RLAIF): मानव प्रेफ़रेंस लेबल के बजाय, एक AI मॉडल प्रतिक्रिया जोड़ों की तुलना संविधान के विरुद्ध करता है और RL प्रशिक्षण के लिए प्रेफ़रेंस सिग्नल प्रदान करता है।

संविधान

संविधान प्राकृतिक-भाषा सिद्धांतों का एक सेट है: "वह प्रतिक्रिया चुनें जो ईमानदार और हानिरहित होते हुए सबसे अधिक सहायक हो," "ऐसी प्रतिक्रियाएँ पसंद करें जो अवैध गतिविधियों में मदद न करें," आदि। इस दृष्टिकोण की शक्ति यह है कि सिद्धांतों को शून्य से पुनः प्रशिक्षण के बिना संशोधित, जोड़ा या हटाया जा सकता है — आप संविधान अपडेट करते हैं और आलोचना-संशोधन प्रक्रिया को पुनः चलाते हैं। यह alignment मानदंडों को स्पष्ट, बहस योग्य और सुधार योग्य बनाता है।

Anthropic से परे

संवैधानिक दृष्टिकोण ने व्यापक alignment क्षेत्र को प्रभावित किया है। AI फ़ीडबैक (RLAIF) का उपयोग करके alignment को मानव लेबलिंग से जो संभव है उससे आगे स्केल करने का विचार अब कई लैब द्वारा उपयोग किया जाता है। स्पष्ट, ऑडिट योग्य alignment मानदंडों का अवधारणा — लेबलर निर्देशों में एम्बेडेड निहित मानदंडों के बजाय — एक उद्योग सर्वोत्तम अभ्यास बनती जा रही है।

संबंधित अवधारणाएँ

← सभी शब्द
← Cohere Contamination →