Zubnet AIसीखेंWiki › Dataset
मूल तत्व

Dataset

इसे भी कहा जाता है: ट्रेनिंग सेट, डेटा
मशीन लर्निंग मॉडल को प्रशिक्षित, मूल्यांकन या परीक्षण करने के लिए उपयोग किया जाने वाला डेटा का एक संरचित संग्रह। Datasets लेबल किए गए (प्रत्येक उदाहरण का एक ज्ञात सही उत्तर होता है) या बिना लेबल के (बिना एनोटेशन के कच्चा डेटा) हो सकते हैं। किसी dataset की गुणवत्ता, आकार, विविधता और प्रतिनिधित्व मूल रूप से यह निर्धारित करते हैं कि एक मॉडल क्या सीख सकता है।

यह क्यों मायने रखता है

कचरा अंदर, कचरा बाहर। खराब dataset पर प्रशिक्षित सबसे सुरुचिपूर्ण आर्किटेक्चर भी खराब परिणाम देगा। इसके विपरीत, उत्कृष्ट डेटा पर प्रशिक्षित एक सरल मॉडल अक्सर शोर पर प्रशिक्षित जटिल मॉडल से बेहतर प्रदर्शन करता है। Dataset क्यूरेशन AI विकास का सबसे प्रभावशाली और सबसे कम आकर्षक हिस्सा है।

गहन अध्ययन

Datasets कई रूपों में आते हैं: भाषा मॉडल के लिए टेक्स्ट कॉर्पोरा, क्लासिफायर के लिए लेबल की गई छवियाँ, फ़ाइन-ट्यूनिंग के लिए प्रश्न-उत्तर जोड़े, अलाइनमेंट के लिए प्रेफ़रेंस पेयर, और मूल्यांकन के लिए बेंचमार्क datasets। ट्रेनिंग सेट (जिससे मॉडल सीखता है), वैलिडेशन सेट (जो हाइपरपैरामीटर ट्यूनिंग का मार्गदर्शन करता है), और टेस्ट सेट (जो अंतिम प्रदर्शन मापता है) के बीच का अंतर मौलिक है — ट्रेनिंग डेटा पर मूल्यांकन करना अर्थहीन है क्योंकि मॉडल ने इसे याद कर लिया है।

डेटा स्केलिंग की कहानी

LLM प्री-ट्रेनिंग datasets लाखों टोकन (शुरुआती GPT) से बढ़कर ट्रिलियन (आधुनिक मॉडल) हो गए हैं। Common Crawl, Wikipedia, किताबें, कोड रिपॉज़िटरी, वैज्ञानिक पेपर, और क्यूरेटेड वेब टेक्स्ट सामान्य मिश्रण बनाते हैं। लेकिन अधिक डेटा हमेशा बेहतर नहीं होता — Chinchilla स्केलिंग लॉज़ ने दिखाया कि डेटा गुणवत्ता और मात्रा को मॉडल साइज़ के साथ मिलकर स्केल करना चाहिए। डीडुप्लिकेशन, विषाक्त या निम्न-गुणवत्ता सामग्री को फ़िल्टर करना, और डोमेन को संतुलित करना सभी महत्वपूर्ण कदम हैं।

पूर्वाग्रह डेटा में रहता है

प्रत्येक dataset अपने स्रोतों के पूर्वाग्रह वहन करता है। मुख्य रूप से अंग्रेज़ी वेब टेक्स्ट पर प्रशिक्षित मॉडल अन्य भाषाओं पर खराब प्रदर्शन करेगा। इंटरनेट से स्क्रैप किया गया dataset समाज के पूर्वाग्रहों को विरासत में लेता है। यह कोई ऐसी समस्या नहीं है जिसे आप आर्किटेक्चर से ठीक कर सकें — इसके लिए सावधानीपूर्वक डेटा क्यूरेशन, ऑडिटिंग और पोस्ट-ट्रेनिंग शमन की आवश्यकता है। सबसे प्रभावशाली AI नैतिकता कार्य अक्सर dataset स्तर पर होता है।

संबंधित अवधारणाएँ

← सभी शब्द
← Databricks Decart AI →