Datasets कई रूपों में आते हैं: भाषा मॉडल के लिए टेक्स्ट कॉर्पोरा, क्लासिफायर के लिए लेबल की गई छवियाँ, फ़ाइन-ट्यूनिंग के लिए प्रश्न-उत्तर जोड़े, अलाइनमेंट के लिए प्रेफ़रेंस पेयर, और मूल्यांकन के लिए बेंचमार्क datasets। ट्रेनिंग सेट (जिससे मॉडल सीखता है), वैलिडेशन सेट (जो हाइपरपैरामीटर ट्यूनिंग का मार्गदर्शन करता है), और टेस्ट सेट (जो अंतिम प्रदर्शन मापता है) के बीच का अंतर मौलिक है — ट्रेनिंग डेटा पर मूल्यांकन करना अर्थहीन है क्योंकि मॉडल ने इसे याद कर लिया है।
LLM प्री-ट्रेनिंग datasets लाखों टोकन (शुरुआती GPT) से बढ़कर ट्रिलियन (आधुनिक मॉडल) हो गए हैं। Common Crawl, Wikipedia, किताबें, कोड रिपॉज़िटरी, वैज्ञानिक पेपर, और क्यूरेटेड वेब टेक्स्ट सामान्य मिश्रण बनाते हैं। लेकिन अधिक डेटा हमेशा बेहतर नहीं होता — Chinchilla स्केलिंग लॉज़ ने दिखाया कि डेटा गुणवत्ता और मात्रा को मॉडल साइज़ के साथ मिलकर स्केल करना चाहिए। डीडुप्लिकेशन, विषाक्त या निम्न-गुणवत्ता सामग्री को फ़िल्टर करना, और डोमेन को संतुलित करना सभी महत्वपूर्ण कदम हैं।
प्रत्येक dataset अपने स्रोतों के पूर्वाग्रह वहन करता है। मुख्य रूप से अंग्रेज़ी वेब टेक्स्ट पर प्रशिक्षित मॉडल अन्य भाषाओं पर खराब प्रदर्शन करेगा। इंटरनेट से स्क्रैप किया गया dataset समाज के पूर्वाग्रहों को विरासत में लेता है। यह कोई ऐसी समस्या नहीं है जिसे आप आर्किटेक्चर से ठीक कर सकें — इसके लिए सावधानीपूर्वक डेटा क्यूरेशन, ऑडिटिंग और पोस्ट-ट्रेनिंग शमन की आवश्यकता है। सबसे प्रभावशाली AI नैतिकता कार्य अक्सर dataset स्तर पर होता है।