Model Collapse: Definition & Meaning — AI Wiki

La dégradation qui arrive quand les modèles IA sont entraînés sur des données générées par des modèles IA précédents, créant une boucle de feedback où les erreurs et les biais s'accumulent à travers les générations. Chaque génération perd de la diversité et amplifie des artefacts de la précédente, finissant par produire des modèles qui génèrent des sorties répétitives, génériques ou distordues.

Pourquoi c'est important

Le model collapse est la bombe à retardement de l'ère du contenu généré par IA. Pendant qu'Internet se remplit de texte généré par IA (estimé à 10–50 % du nouveau contenu web), les futurs modèles entraînés sur des scrapes web vont inévitablement ingérer des sorties IA. Si c'est pas géré soigneusement, la qualité des modèles pourrait plateauer ou se dégrader. C'est pourquoi la curation de données et le tracking de provenance deviennent une infrastructure critique.

Deep Dive

The mechanism: a model trained on real data captures the distribution imperfectly — it overestimates some patterns and misses others. When a second model trains on the first model's outputs, it captures the first model's imperfect distribution, amplifying the errors. By generation 5 or 10, the distribution has collapsed to a narrow, distorted version of the original. Shumailov et al. (2023) demonstrated this empirically across multiple model types.

The Internet Contamination Problem

The practical concern: pre-training datasets are typically scraped from the web, and the web increasingly contains AI-generated content. If 20% of a training corpus is AI-generated, and that AI content has the same statistical biases as the model being trained, those biases get reinforced. The result isn't catastrophic failure but gradual homogenization — models that sound more and more like each other and less like the diversity of human expression.

Mitigations

Solutions include: detecting and filtering AI-generated content from training data (hard at scale), mixing AI-generated data with verified human data (maintaining a "human data floor"), watermarking AI outputs to enable filtering, and maintaining curated, AI-free reference datasets. Some researchers argue that model collapse is overstated if data is properly diversified and quality-controlled, but the risk is taken seriously enough that major labs invest in data provenance.

Model Collapse

Pourquoi c'est important

Deep Dive

The Internet Contamination Problem

Mitigations

Concepts liés