Mechanism: real data पर प्रशिक्षित model distribution को imperfectly capture करता है — यह कुछ patterns को overestimate करता है और दूसरों को miss करता है। जब दूसरा model पहले model के outputs पर प्रशिक्षित होता है, तो यह पहले model की imperfect distribution को capture करता है, errors को amplify करता है। Generation 5 या 10 तक, distribution मूल की एक संकीर्ण, विकृत version में collapse हो जाती है। Shumailov et al. (2023) ने इसे कई model types में empirically प्रदर्शित किया।
व्यावहारिक चिंता: pre-training datasets आमतौर पर web से scrape किए जाते हैं, और web में बढ़ते हुए AI-generated content है। यदि training corpus का 20% AI-generated है, और उस AI content में model जिसे प्रशिक्षित किया जा रहा है उसी statistical biases हैं, तो वे biases reinforce होते हैं। परिणाम catastrophic failure नहीं बल्कि धीरे-धीरे homogenization है — models जो अधिक से अधिक एक-दूसरे की तरह और मानव अभिव्यक्ति की विविधता से कम सुनते हैं।
समाधानों में शामिल हैं: training data से AI-generated content को detect और filter करना (scale पर कठिन), AI-generated data को verified human data के साथ mix करना ("human data floor" बनाए रखना), filtering सक्षम करने के लिए AI outputs को watermark करना, और curated, AI-free reference datasets बनाए रखना। कुछ शोधकर्ता तर्क देते हैं कि model collapse overrated है यदि data properly diversified और quality-controlled है, लेकिन risk को गंभीरता से लिया जाता है इसलिए प्रमुख labs data provenance में निवेश करती हैं।