Constitutional AI: परिभाषा और अर्थ — AI विकी

Anthropic द्वारा विकसित एक alignment तकनीक जहाँ एक मॉडल को हर निर्णय के लिए केवल मानव प्रतिक्रिया पर निर्भर रहने के बजाय सिद्धांतों के एक सेट (एक "संविधान") का पालन करने के लिए प्रशिक्षित किया जाता है। मॉडल इन सिद्धांतों के आधार पर अपने स्वयं के आउटपुट की आलोचना और संशोधन करता है, फिर संशोधित आउटपुट पर प्रशिक्षित होता है। यह मानव लेबलर की आवश्यकता को कम करता है और alignment मानदंडों को स्पष्ट और ऑडिट योग्य बनाता है।

यह क्यों मायने रखता है

Constitutional AI RLHF की दो समस्याओं को संबोधित करता है: यह महंगा है (हर प्रशिक्षण उदाहरण के लिए मानव लेबलर) और अपारदर्शी (मानदंड लेबलर के निर्णयों में निहित हैं)। सिद्धांतों को स्पष्ट बनाकर, CAI alignment को अधिक पारदर्शी, स्केलेबल और सुसंगत बनाता है। यह Claude को प्रशिक्षित करने के तरीके का एक मुख्य हिस्सा है।

गहन अध्ययन

CAI प्रक्रिया के दो चरण हैं। पहला, सुपरवाइज़्ड लर्निंग: मॉडल प्रतिक्रियाएँ उत्पन्न करता है, फिर एक अलग instance संवैधानिक सिद्धांतों के विरुद्ध उन प्रतिक्रियाओं की आलोचना करता है ("क्या यह प्रतिक्रिया हानिकारक गतिविधियों में मदद करती है?"), और उन्हें संशोधित करता है। मॉडल को संशोधित प्रतिक्रियाओं पर फ़ाइन-ट्यून किया जाता है। दूसरा, AI फ़ीडबैक से RL (RLAIF): मानव प्रेफ़रेंस लेबल के बजाय, एक AI मॉडल प्रतिक्रिया जोड़ों की तुलना संविधान के विरुद्ध करता है और RL प्रशिक्षण के लिए प्रेफ़रेंस सिग्नल प्रदान करता है।

संविधान

संविधान प्राकृतिक-भाषा सिद्धांतों का एक सेट है: "वह प्रतिक्रिया चुनें जो ईमानदार और हानिरहित होते हुए सबसे अधिक सहायक हो," "ऐसी प्रतिक्रियाएँ पसंद करें जो अवैध गतिविधियों में मदद न करें," आदि। इस दृष्टिकोण की शक्ति यह है कि सिद्धांतों को शून्य से पुनः प्रशिक्षण के बिना संशोधित, जोड़ा या हटाया जा सकता है — आप संविधान अपडेट करते हैं और आलोचना-संशोधन प्रक्रिया को पुनः चलाते हैं। यह alignment मानदंडों को स्पष्ट, बहस योग्य और सुधार योग्य बनाता है।

Anthropic से परे

संवैधानिक दृष्टिकोण ने व्यापक alignment क्षेत्र को प्रभावित किया है। AI फ़ीडबैक (RLAIF) का उपयोग करके alignment को मानव लेबलिंग से जो संभव है उससे आगे स्केल करने का विचार अब कई लैब द्वारा उपयोग किया जाता है। स्पष्ट, ऑडिट योग्य alignment मानदंडों का अवधारणा — लेबलर निर्देशों में एम्बेडेड निहित मानदंडों के बजाय — एक उद्योग सर्वोत्तम अभ्यास बनती जा रही है।

Constitutional AI

यह क्यों मायने रखता है

गहन अध्ययन

संविधान

Anthropic से परे

संबंधित अवधारणाएँ