Token : Définition et signification — Wiki IA

La dégradation qui se produit quand des modèles d'IA sont entraînés sur des données générées par des modèles d'IA précédents, créant une boucle de rétroaction où les erreurs et les biais s'accumulent à travers les générations. Chaque génération perd un peu de diversité et amplifie certains artefacts de la précédente, produisant finalement des modèles qui génèrent des sorties répétitives, génériques ou distordues.

Pourquoi c'est important

L'effondrement de modèle est la bombe à retardement de l'ère du contenu généré par IA. À mesure qu'internet se remplit de texte généré par IA (estimé à 10–50 % du nouveau contenu web), les futurs modèles entraînés sur des scrapes web ingéreront inévitablement des sorties d'IA. Si ça n'est pas géré avec soin, la qualité des modèles pourrait plafonner ou se dégrader. C'est pourquoi la curation des données et le suivi de provenance deviennent une infrastructure critique.

En profondeur

Le mécanisme : un modèle entraîné sur des données réelles capture la distribution de manière imparfaite — il surestime certains patterns et en manque d'autres. Quand un second modèle s'entraîne sur les sorties du premier, il capture la distribution imparfaite du premier modèle, amplifiant les erreurs. À la génération 5 ou 10, la distribution s'est effondrée en une version étroite et distordue de l'originale. Shumailov et al. (2023) l'ont démontré empiriquement sur plusieurs types de modèles.

Le problème de contamination d'internet

La préoccupation pratique : les jeux de données de pré-entraînement sont typiquement récupérés du web, et le web contient de plus en plus de contenu généré par IA. Si 20 % d'un corpus d'entraînement est généré par IA, et que ce contenu IA a les mêmes biais statistiques que le modèle en cours d'entraînement, ces biais sont renforcés. Le résultat n'est pas une défaillance catastrophique mais une homogénéisation graduelle — des modèles qui se ressemblent de plus en plus et ressemblent de moins en moins à la diversité de l'expression humaine.

Atténuations

Les solutions incluent : détecter et filtrer le contenu généré par IA des données d'entraînement (difficile à grande échelle), mélanger des données générées par IA avec des données humaines vérifiées (maintenir un « plancher de données humaines »), apposer un filigrane aux sorties IA pour permettre le filtrage, et maintenir des jeux de données de référence curatés et sans IA. Certains chercheurs soutiennent que l'effondrement de modèle est exagéré si les données sont correctement diversifiées et contrôlées en qualité, mais le risque est pris suffisamment au sérieux pour que les grands labos investissent dans la provenance des données.

Effondrement de modèle

Pourquoi c'est important

En profondeur

Le problème de contamination d'internet

Atténuations

Concepts connexes