Los usos abarcan todo el pipeline: llenar huecos del preentrenamiento, generar ejemplos de fine-tuning, crear respuestas de alineación y producir datos de evaluación. Prácticamente todos los modelos de frontera actuales usan datos sintéticos en alguna etapa de su entrenamiento.
El riesgo de colapso del modelo es real: cuando entrenas modelos con la salida de otros modelos durante generaciones, los errores se acumulan y la distribución se degrada. Los extremos se pierden primero — las respuestas creativas, las perspectivas minoritarias, los matices sutiles. Por eso la curación y filtrado son tan importantes como la generación.
Las preguntas legales sobre propiedad intelectual siguen abiertas. Si un modelo genera datos de entrenamiento, ¿hereda las restricciones de copyright de sus propios datos de entrenamiento? No hay consenso legal claro. Esto crea incertidumbre para cualquier empresa que construya sobre datos sintéticos, especialmente en dominios regulados.