Zubnet AIAprenderWiki › Data Augmentation
Training

Data Augmentation

Técnicas que expandem artificialmente um dataset de treinamento criando versões modificadas de exemplos existentes. Para imagens: inverter, rotacionar, recortar, mudar cor. Para texto: parafrasear, back-translation, substituição de sinônimos. Para áudio: mudanças de velocidade, injeção de ruído. O objetivo é ensinar ao modelo invariâncias — um gato é um gato seja a imagem invertida, escurecida ou recortada.

Por que importa

Data augmentation é o jeito mais barato de melhorar performance do modelo quando você tem dados limitados. Reduz overfitting mostrando ao modelo muitas variações de cada exemplo, ensinando-o a focar em features essenciais em vez de detalhes superficiais. Em visão computacional, augmentation rotineiramente provê melhorias de 2–5% de precisão de graça.

Deep Dive

The key principle: augmentations must preserve the label. Flipping a cat image horizontally still shows a cat (valid augmentation). Flipping a "turn left" sign makes it a "turn right" sign (invalid augmentation). Choosing appropriate augmentations requires understanding what invariances matter for your task.

Modern Augmentation

AutoAugment and its successors (RandAugment, TrivialAugment) learn or randomize augmentation policies instead of hand-designing them. Cutout/CutMix randomly masks or mixes patches from different images. MixUp interpolates between pairs of examples, creating synthetic training points that smooth decision boundaries. These techniques are now standard in vision training pipelines.

AI-Powered Augmentation

With generative models, augmentation goes beyond geometric transforms. You can use LLMs to paraphrase text training data, use diffusion models to generate variant images, or use models to create entirely new training examples (synthetic data). The line between "augmentation" (modifying existing examples) and "synthetic data" (generating new examples) is blurring, and both are becoming essential parts of modern training pipelines.

Conceitos relacionados

← Todos os termos
← Cursor Data Centers →