Zubnet AIसीखेंWiki › Model Collapse
प्रशिक्षण

Model Collapse

इसे भी कहा जाता है: Data Feedback Loop
वह degradation जो तब होता है जब AI models को पिछले AI models द्वारा generate किए गए data पर प्रशिक्षित किया जाता है, एक feedback loop बनाता है जहां errors और biases पीढ़ियों में जमा होते हैं। प्रत्येक पीढ़ी पिछली से कुछ विविधता खो देती है और कुछ artifacts को बढ़ा देती है, अंततः ऐसे models उत्पन्न करती है जो repetitive, generic, या विकृत outputs generate करते हैं।

यह क्यों मायने रखता है

Model collapse AI-generated content युग का ticking time bomb है। जैसे-जैसे internet AI-generated text से भरता है (नई web content का अनुमानित 10–50%), भविष्य के models web scrapes पर प्रशिक्षित होने पर अनिवार्य रूप से AI outputs को ingest करेंगे। यदि इसे सावधानीपूर्वक manage नहीं किया गया, तो model quality plateau या degrade हो सकती है। यही कारण है कि data curation और provenance tracking critical infrastructure बनते जा रहे हैं।

गहन अध्ययन

Mechanism: real data पर प्रशिक्षित model distribution को imperfectly capture करता है — यह कुछ patterns को overestimate करता है और दूसरों को miss करता है। जब दूसरा model पहले model के outputs पर प्रशिक्षित होता है, तो यह पहले model की imperfect distribution को capture करता है, errors को amplify करता है। Generation 5 या 10 तक, distribution मूल की एक संकीर्ण, विकृत version में collapse हो जाती है। Shumailov et al. (2023) ने इसे कई model types में empirically प्रदर्शित किया।

Internet Contamination समस्या

व्यावहारिक चिंता: pre-training datasets आमतौर पर web से scrape किए जाते हैं, और web में बढ़ते हुए AI-generated content है। यदि training corpus का 20% AI-generated है, और उस AI content में model जिसे प्रशिक्षित किया जा रहा है उसी statistical biases हैं, तो वे biases reinforce होते हैं। परिणाम catastrophic failure नहीं बल्कि धीरे-धीरे homogenization है — models जो अधिक से अधिक एक-दूसरे की तरह और मानव अभिव्यक्ति की विविधता से कम सुनते हैं।

शमन उपाय

समाधानों में शामिल हैं: training data से AI-generated content को detect और filter करना (scale पर कठिन), AI-generated data को verified human data के साथ mix करना ("human data floor" बनाए रखना), filtering सक्षम करने के लिए AI outputs को watermark करना, और curated, AI-free reference datasets बनाए रखना। कुछ शोधकर्ता तर्क देते हैं कि model collapse overrated है यदि data properly diversified और quality-controlled है, लेकिन risk को गंभीरता से लिया जाता है इसलिए प्रमुख labs data provenance में निवेश करती हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← Mistral AI Model Merging →