Zubnet AIसीखेंWiki › Data Augmentation
प्रशिक्षण

Data Augmentation

ऐसी तकनीकें जो मौजूदा उदाहरणों के संशोधित संस्करण बनाकर प्रशिक्षण dataset को कृत्रिम रूप से विस्तारित करती हैं। छवियों के लिए: फ़्लिप करना, घुमाना, क्रॉप करना, रंग बदलना। टेक्स्ट के लिए: पैराफ्रेज़ करना, बैक-ट्रांसलेशन, समानार्थी प्रतिस्थापन। ऑडियो के लिए: गति परिवर्तन, शोर इंजेक्शन। लक्ष्य मॉडल को invariances सिखाना है — एक बिल्ली बिल्ली ही है चाहे छवि फ़्लिप हो, अंधेरी हो या क्रॉप की गई हो।

यह क्यों मायने रखता है

Data augmentation सीमित डेटा होने पर मॉडल प्रदर्शन में सुधार का सबसे सस्ता तरीका है। यह मॉडल को प्रत्येक उदाहरण की कई विविधताएँ दिखाकर ओवरफिटिंग को कम करता है, इसे सतही विवरणों के बजाय आवश्यक विशेषताओं पर ध्यान केंद्रित करना सिखाता है। कंप्यूटर विज़न में, augmentation नियमित रूप से मुफ़्त में 2–5% accuracy सुधार प्रदान करता है।

गहन अध्ययन

मुख्य सिद्धांत: augmentations को लेबल संरक्षित करना चाहिए। एक बिल्ली की छवि को क्षैतिज रूप से फ़्लिप करने पर भी एक बिल्ली दिखती है (वैध augmentation)। एक "बाएँ मुड़ें" चिह्न को फ़्लिप करने पर यह "दाएँ मुड़ें" चिह्न बन जाता है (अमान्य augmentation)। उचित augmentations चुनने के लिए यह समझना आवश्यक है कि आपके कार्य के लिए कौन सी invariances मायने रखती हैं।

आधुनिक Augmentation

AutoAugment और इसके उत्तराधिकारी (RandAugment, TrivialAugment) हाथ से डिज़ाइन करने के बजाय augmentation नीतियों को सीखते या यादृच्छिक बनाते हैं। Cutout/CutMix विभिन्न छवियों से यादृच्छिक रूप से पैच को मास्क या मिक्स करता है। MixUp उदाहरणों के जोड़ों के बीच interpolation करता है, सिंथेटिक प्रशिक्षण बिंदु बनाता है जो निर्णय सीमाओं को smooth करते हैं। ये तकनीकें अब विज़न प्रशिक्षण पाइपलाइन में मानक हैं।

AI-संचालित Augmentation

जनरेटिव मॉडल के साथ, augmentation ज्यामितीय transforms से आगे बढ़ जाता है। आप टेक्स्ट प्रशिक्षण डेटा को पैराफ्रेज़ करने के लिए LLMs, वेरिएंट छवियाँ उत्पन्न करने के लिए diffusion मॉडल, या पूरी तरह से नए प्रशिक्षण उदाहरण बनाने के लिए मॉडल का उपयोग कर सकते हैं (synthetic data)। "Augmentation" (मौजूदा उदाहरणों को संशोधित करना) और "synthetic data" (नए उदाहरण उत्पन्न करना) के बीच की रेखा धुंधली हो रही है, और दोनों आधुनिक प्रशिक्षण पाइपलाइन के आवश्यक भाग बनते जा रहे हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← DALL-E Databricks →