एनोटेशन (Annotation): परिभाषा और अर्थ — AI विकी

कच्चे डेटा में लेबल, टैग, या मेटाडेटा जोड़ने की प्रक्रिया ताकि इसका उपयोग supervised learning के लिए किया जा सके। छवियों को एनोटेट करने का अर्थ है वस्तुओं के चारों ओर बाउंडिंग बॉक्स बनाना। टेक्स्ट को एनोटेट करने का अर्थ है संस्थाओं, भावना, या इरादे को लेबल करना। RLHF के लिए एनोटेट करने का अर्थ है मॉडल प्रतिक्रियाओं को गुणवत्ता के अनुसार रैंक करना। एनोटेशन वह मानवीय श्रम है जो कच्चे डेटा को प्रशिक्षण डेटा में बदलता है।

यह क्यों मायने रखता है

एनोटेशन supervised AI की अलंकृत नींव है। प्रत्येक लेबल किया गया डेटासेट, प्रत्येक fine-tuned मॉडल, प्रत्येक aligned असिस्टेंट उन मानव एनोटेटरों पर निर्भर करता है जिन्होंने घंटों डेटा को सही ढंग से लेबल किया। एनोटेशन की गुणवत्ता सीधे मॉडल गुणवत्ता निर्धारित करती है — असंगत या पूर्वाग्रहित लेबलिंग असंगत और पूर्वाग्रहित मॉडल उत्पन्न करती है। यह AI सिस्टम बनाने का सबसे श्रम-गहन और अक्सर सबसे महंगा हिस्सा है।

गहन अध्ययन

एनोटेशन वर्कफ़्लो में आमतौर पर शामिल हैं: (1) स्पष्ट लेबलिंग दिशानिर्देश बनाना ("सकारात्मक भावना" किसे माना जाता है? बाउंडिंग बॉक्स में "कार" की सीमा क्या है?), (2) दिशानिर्देशों पर एनोटेटरों को प्रशिक्षित करना, (3) प्रति उदाहरण कई एनोटेटरों के साथ डेटा एनोटेट करना (गुणवत्ता नियंत्रण के लिए), (4) अंतर-एनोटेटर सहमति मापना (क्या एनोटेटर लेबल पर सहमत हैं?), और (5) असहमतियों को हल करना (निर्णय या बहुमत वोट के माध्यम से)। कम सहमति अक्सर अस्पष्ट दिशानिर्देश या वास्तव में अस्पष्ट डेटा इंगित करती है।

RLHF एनोटेशन

LLM alignment के लिए, एनोटेशन का अर्थ है मॉडल प्रतिक्रियाओं की तुलना करना: "क्या प्रतिक्रिया A या B इस प्रॉम्प्ट के लिए बेहतर है?" यह प्राथमिकता एनोटेशन विशेष रूप से चुनौतीपूर्ण है क्योंकि "बेहतर" व्यक्तिपरक, संदर्भ-निर्भर, और सांस्कृतिक रूप से भिन्न है। एनोटेटर जनसांख्यिकी, विशेषज्ञता, और निर्देश सभी परिणामी प्राथमिकता डेटा को प्रभावित करते हैं, जो बदले में मॉडल व्यवहार को आकार देता है। इसीलिए alignment को अक्सर उन मूल्यों को एन्कोड करने के रूप में वर्णित किया जाता है जो एनोटेशन दिशानिर्देश लिखते हैं।

AI-सहायित एनोटेशन

तेज़ी से, AI मॉडल एनोटेशन में सहायता करते हैं: डेटा को पहले से लेबल करना जिसे मनुष्य फिर सही करते हैं (शून्य से लेबल करने से तेज़), सिंथेटिक एनोटेशन डेटा उत्पन्न करना, या मनुष्यों के साथ अतिरिक्त एनोटेटर के रूप में सेवा करना। यह एक दिलचस्प फीडबैक लूप बनाता है: AI बेहतर AI प्रशिक्षित करने वाले डेटा को लेबल करने में मदद करता है। जोखिम यह है कि AI-सहायित एनोटेशन सहायता करने वाले मॉडल के पूर्वाग्रह विरासत में लेता है, इसलिए मानवीय निरीक्षण आवश्यक बना रहता है।

एनोटेशन (Annotation)

यह क्यों मायने रखता है

गहन अध्ययन

RLHF एनोटेशन

AI-सहायित एनोटेशन

संबंधित अवधारणाएँ