Aumento de Datos: Definición y significado — Wiki de IA

Técnicas que expanden artificialmente un dataset de entrenamiento creando versiones modificadas de ejemplos existentes. Para imágenes: voltear, rotar, recortar, cambios de color. Para texto: parafraseo, traducción inversa, sustitución de sinónimos. Para audio: cambios de velocidad, inyección de ruido. El objetivo es enseñarle al modelo invariancias — un gato es un gato ya sea que la imagen esté volteada, oscurecida o recortada.

Por qué importa

El aumento de datos es la forma más barata de mejorar el rendimiento de un modelo cuando tienes datos limitados. Reduce el sobreajuste mostrando al modelo muchas variaciones de cada ejemplo, enseñándole a enfocarse en características esenciales en lugar de detalles superficiales. En visión por computadora, el aumento rutinariamente proporciona mejoras de 2–5% en exactitud de forma gratuita.

En profundidad

El principio clave: los aumentos deben preservar la etiqueta. Voltear horizontalmente la imagen de un gato sigue mostrando un gato (aumento válido). Voltear una señal de "gira a la izquierda" la convierte en "gira a la derecha" (aumento inválido). Elegir aumentos apropiados requiere entender qué invariancias importan para tu tarea.

Aumento Moderno

AutoAugment y sus sucesores (RandAugment, TrivialAugment) aprenden o aleatorizan políticas de aumento en lugar de diseñarlas a mano. Cutout/CutMix enmascaran o mezclan aleatoriamente parches de diferentes imágenes. MixUp interpola entre pares de ejemplos, creando puntos de entrenamiento sintéticos que suavizan las fronteras de decisión. Estas técnicas son ahora estándar en las pipelines de entrenamiento de visión.

Aumento Potenciado por IA

Con modelos generativos, el aumento va más allá de las transformaciones geométricas. Puedes usar LLMs para parafrasear datos de entrenamiento de texto, usar modelos de difusión para generar imágenes variantes, o usar modelos para crear ejemplos de entrenamiento completamente nuevos (datos sintéticos). La línea entre "aumento" (modificar ejemplos existentes) y "datos sintéticos" (generar nuevos ejemplos) se está difuminando, y ambos se están volviendo partes esenciales de las pipelines modernas de entrenamiento.

Aumento de Datos

Por qué importa

En profundidad

Aumento Moderno

Aumento Potenciado por IA

Conceptos relacionados