El mecanismo: un modelo entrenado con datos reales captura la distribución de forma imperfecta — sobreestima algunos patrones y omite otros. Cuando un segundo modelo se entrena con las salidas del primer modelo, captura la distribución imperfecta del primer modelo, amplificando los errores. Para la generación 5 o 10, la distribución ha colapsado a una versión estrecha y distorsionada de la original. Shumailov et al. (2023) demostraron esto empíricamente en múltiples tipos de modelos.
La preocupación práctica: los datasets de preentrenamiento típicamente se extraen de la web, y la web contiene cada vez más contenido generado por IA. Si el 20% de un corpus de entrenamiento es generado por IA, y ese contenido de IA tiene los mismos sesgos estadísticos que el modelo que se está entrenando, esos sesgos se refuerzan. El resultado no es un fallo catastrófico sino una homogeneización gradual — modelos que suenan cada vez más parecidos entre sí y menos como la diversidad de la expresión humana.
Las soluciones incluyen: detectar y filtrar contenido generado por IA de los datos de entrenamiento (difícil a escala), mezclar datos generados por IA con datos humanos verificados (manteniendo un "piso de datos humanos"), poner marcas de agua en las salidas de IA para habilitar el filtrado, y mantener datasets de referencia curados y libres de IA. Algunos investigadores argumentan que el colapso de modelo está exagerado si los datos se diversifican adecuadamente y se controla la calidad, pero el riesgo se toma lo suficientemente en serio como para que los principales laboratorios inviertan en procedencia de datos.