Zubnet AIAprenderWiki › Data Augmentation
Training

Data Augmentation

Técnicas que expanden artificialmente un dataset de entrenamiento creando versiones modificadas de ejemplos existentes. Para imágenes: voltear, rotar, recortar, cambiar color. Para texto: parafrasear, back-translation, sustitución de sinónimos. Para audio: cambios de velocidad, inyección de ruido. El objetivo es enseñar al modelo invarianzas — un gato es un gato sea que la imagen esté volteada, oscurecida o recortada.

Por qué importa

La data augmentation es la forma más barata de mejorar rendimiento del modelo cuando tienes datos limitados. Reduce el overfitting mostrándole al modelo muchas variaciones de cada ejemplo, enseñándole a enfocarse en features esenciales en lugar de detalles superficiales. En visión por computadora, la augmentation rutinariamente provee mejoras de 2–5% de precisión gratis.

Deep Dive

The key principle: augmentations must preserve the label. Flipping a cat image horizontally still shows a cat (valid augmentation). Flipping a "turn left" sign makes it a "turn right" sign (invalid augmentation). Choosing appropriate augmentations requires understanding what invariances matter for your task.

Modern Augmentation

AutoAugment and its successors (RandAugment, TrivialAugment) learn or randomize augmentation policies instead of hand-designing them. Cutout/CutMix randomly masks or mixes patches from different images. MixUp interpolates between pairs of examples, creating synthetic training points that smooth decision boundaries. These techniques are now standard in vision training pipelines.

AI-Powered Augmentation

With generative models, augmentation goes beyond geometric transforms. You can use LLMs to paraphrase text training data, use diffusion models to generate variant images, or use models to create entirely new training examples (synthetic data). The line between "augmentation" (modifying existing examples) and "synthetic data" (generating new examples) is blurring, and both are becoming essential parts of modern training pipelines.

Conceptos relacionados

← Todos los términos
← Cursor Data Centers →