Colapso de Modelo: Definición y significado — Wiki de IA

La degradación que ocurre cuando los modelos de IA se entrenan con datos generados por modelos de IA anteriores, creando un bucle de retroalimentación donde los errores y sesgos se acumulan a lo largo de las generaciones. Cada generación pierde algo de diversidad y amplifica algunos artefactos de la anterior, produciendo eventualmente modelos que generan salidas repetitivas, genéricas o distorsionadas.

Por qué importa

El colapso de modelo es la bomba de tiempo de la era del contenido generado por IA. A medida que internet se llena de texto generado por IA (estimado en un 10–50% del nuevo contenido web), los futuros modelos entrenados con scrapes web inevitablemente ingerirán salidas de IA. Si esto no se gestiona cuidadosamente, la calidad de los modelos podría estancarse o degradarse. Por eso la curación de datos y el seguimiento de procedencia se están convirtiendo en infraestructura crítica.

En profundidad

El mecanismo: un modelo entrenado con datos reales captura la distribución de forma imperfecta — sobreestima algunos patrones y omite otros. Cuando un segundo modelo se entrena con las salidas del primer modelo, captura la distribución imperfecta del primer modelo, amplificando los errores. Para la generación 5 o 10, la distribución ha colapsado a una versión estrecha y distorsionada de la original. Shumailov et al. (2023) demostraron esto empíricamente en múltiples tipos de modelos.

El Problema de Contaminación de Internet

La preocupación práctica: los datasets de preentrenamiento típicamente se extraen de la web, y la web contiene cada vez más contenido generado por IA. Si el 20% de un corpus de entrenamiento es generado por IA, y ese contenido de IA tiene los mismos sesgos estadísticos que el modelo que se está entrenando, esos sesgos se refuerzan. El resultado no es un fallo catastrófico sino una homogeneización gradual — modelos que suenan cada vez más parecidos entre sí y menos como la diversidad de la expresión humana.

Mitigaciones

Las soluciones incluyen: detectar y filtrar contenido generado por IA de los datos de entrenamiento (difícil a escala), mezclar datos generados por IA con datos humanos verificados (manteniendo un "piso de datos humanos"), poner marcas de agua en las salidas de IA para habilitar el filtrado, y mantener datasets de referencia curados y libres de IA. Algunos investigadores argumentan que el colapso de modelo está exagerado si los datos se diversifican adecuadamente y se controla la calidad, pero el riesgo se toma lo suficientemente en serio como para que los principales laboratorios inviertan en procedencia de datos.

Colapso de Modelo

Por qué importa

En profundidad

El Problema de Contaminación de Internet

Mitigaciones

Conceptos relacionados