Le mécanisme : un modèle entraîné sur des données réelles capture la distribution de manière imparfaite — il surestime certains patterns et en manque d'autres. Quand un second modèle s'entraîne sur les sorties du premier, il capture la distribution imparfaite du premier modèle, amplifiant les erreurs. À la génération 5 ou 10, la distribution s'est effondrée en une version étroite et distordue de l'originale. Shumailov et al. (2023) l'ont démontré empiriquement sur plusieurs types de modèles.
La préoccupation pratique : les jeux de données de pré-entraînement sont typiquement récupérés du web, et le web contient de plus en plus de contenu généré par IA. Si 20 % d'un corpus d'entraînement est généré par IA, et que ce contenu IA a les mêmes biais statistiques que le modèle en cours d'entraînement, ces biais sont renforcés. Le résultat n'est pas une défaillance catastrophique mais une homogénéisation graduelle — des modèles qui se ressemblent de plus en plus et ressemblent de moins en moins à la diversité de l'expression humaine.
Les solutions incluent : détecter et filtrer le contenu généré par IA des données d'entraînement (difficile à grande échelle), mélanger des données générées par IA avec des données humaines vérifiées (maintenir un « plancher de données humaines »), apposer un filigrane aux sorties IA pour permettre le filtrage, et maintenir des jeux de données de référence curatés et sans IA. Certains chercheurs soutiennent que l'effondrement de modèle est exagéré si les données sont correctement diversifiées et contrôlées en qualité, mais le risque est pris suffisamment au sérieux pour que les grands labos investissent dans la provenance des données.