Typical splits: 80% training, 10% validation, 10% test। बड़े datasets के लिए, validation और test के लिए छोटे प्रतिशत पर्याप्त हैं (एक मिलियन examples का 1% भी 10,000 है — विश्वसनीय evaluation के लिए पर्याप्त)। छोटे datasets के लिए, cross-validation पसंद किया जाता है। मुख्य नियम: development के दौरान किसी भी निर्णय के लिए test set का कभी उपयोग न करें। यह केवल अंतिम evaluation के लिए है। यदि आप development के दौरान test set देखते हैं, तो आपका performance estimate biased हो जाता है।
Data विभाजित करते समय, सुनिश्चित करें कि प्रत्येक split में classes, domains और अन्य महत्वपूर्ण characteristics का प्रतिनिधि वितरण हो। यदि आपका dataset 90% अंग्रेज़ी और 10% फ्रेंच है, तो random split सभी फ्रेंच examples को training set में डाल सकता है, जिससे आप French performance evaluate करने में असमर्थ हो जाएँगे। Stratified splitting प्रत्येक split में आनुपातिक प्रतिनिधित्व सुनिश्चित करता है। Time-series data के लिए, random splits के बजाय temporal splits (अतीत पर train करें, भविष्य पर validate करें) का उपयोग करें।
LLM pre-training के लिए, validation set training corpus का एक held-out भाग है, जिसका उपयोग training के दौरान perplexity compute करने के लिए किया जाता है। Fine-tuning के लिए, यह fine-tuning dataset का held-out भाग है। Alignment (RLHF/DPO) के लिए, validation अधिक जटिल है: automated metrics (reward model scores) plus held-out prompts पर human evaluation। Validation strategy को मेल खाना चाहिए कि मॉडल वास्तव में कैसे उपयोग किया जाएगा — यदि उपयोगकर्ता विविध प्रश्न पूछेंगे, तो validation set विविध होना चाहिए।