Datos sintéticos: Definición y significado — Wiki de IA

Datos de entrenamiento generados por modelos de IA. Se están convirtiendo en estándar en los pipelines de entrenamiento.

Por qué importa

Los datos etiquetados reales son caros. Los modelos de frontera pueden generar millones de ejemplos de la noche a la mañana. El control de calidad es crítico.

En profundidad

Los usos abarcan todo el pipeline: llenar huecos del preentrenamiento, generar ejemplos de fine-tuning, crear respuestas de alineación y producir datos de evaluación. Prácticamente todos los modelos de frontera actuales usan datos sintéticos en alguna etapa de su entrenamiento.

Riesgo de colapso del modelo

El riesgo de colapso del modelo es real: cuando entrenas modelos con la salida de otros modelos durante generaciones, los errores se acumulan y la distribución se degrada. Los extremos se pierden primero — las respuestas creativas, las perspectivas minoritarias, los matices sutiles. Por eso la curación y filtrado son tan importantes como la generación.

Cuestiones legales

Las preguntas legales sobre propiedad intelectual siguen abiertas. Si un modelo genera datos de entrenamiento, ¿hereda las restricciones de copyright de sus propios datos de entrenamiento? No hay consenso legal claro. Esto crea incertidumbre para cualquier empresa que construya sobre datos sintéticos, especialmente en dominios regulados.

Datos sintéticos

Por qué importa

En profundidad

Riesgo de colapso del modelo

Cuestiones legales

Conceptos relacionados