O mecanismo: um modelo treinado em dados reais captura a distribuição de forma imperfeita — superestima alguns padrões e perde outros. Quando um segundo modelo treina nas saídas do primeiro, ele captura a distribuição imperfeita do primeiro modelo, amplificando os erros. Pela geração 5 ou 10, a distribuição colapsou para uma versão estreita e distorcida da original. Shumailov et al. (2023) demonstraram isso empiricamente em múltiplos tipos de modelos.
A preocupação prática: datasets de pré-treinamento são tipicamente coletados da web, e a web contém cada vez mais conteúdo gerado por IA. Se 20% de um corpus de treinamento é gerado por IA, e esse conteúdo de IA tem os mesmos viéses estatísticos do modelo sendo treinado, esses viéses são reforçados. O resultado não é falha catastrófica, mas homogeneização gradual — modelos que soam cada vez mais parecidos uns com os outros e menos com a diversidade da expressão humana.
Soluções incluem: detectar e filtrar conteúdo gerado por IA dos dados de treinamento (difícil em escala), misturar dados gerados por IA com dados humanos verificados (mantendo um "piso de dados humanos"), marcar saídas de IA com watermarks para permitir filtragem, e manter datasets curados, livres de IA como referência. Alguns pesquisadores argumentam que o colapso de modelo é exagerado se os dados forem adequadamente diversificados e controlados por qualidade, mas o risco é levado a sério o suficiente para que grandes laboratórios invistam em procedência de dados.