Zubnet AIAprenderWiki › Aumento de Dados
Treinamento

Aumento de Dados

Também conhecido como: Data Augmentation
Técnicas que expandem artificialmente um dataset de treinamento criando versões modificadas de exemplos existentes. Para imagens: espelhamento, rotação, recorte, alteração de cor. Para texto: paráfrase, retrotradução, substituição de sinônimos. Para áudio: mudanças de velocidade, injeção de ruído. O objetivo é ensinar ao modelo invariâncias — um gato é um gato seja a imagem espelhada, escurecida ou recortada.

Por que isso importa

Aumento de dados é a forma mais barata de melhorar o desempenho de um modelo quando você tem dados limitados. Reduz overfitting mostrando ao modelo muitas variações de cada exemplo, ensinando-o a focar em características essenciais em vez de detalhes superficiais. Em visão computacional, augmentação rotineiramente proporciona 2–5% de melhoria em acurácia de graça.

Em profundidade

O princípio chave: augmentações devem preservar o rótulo. Espelhar uma imagem de gato horizontalmente ainda mostra um gato (augmentação válida). Espelhar uma placa de "vire à esquerda" a transforma em "vire à direita" (augmentação inválida). Escolher augmentações apropriadas requer entender quais invariâncias importam para sua tarefa.

Augmentação Moderna

AutoAugment e seus sucessores (RandAugment, TrivialAugment) aprendem ou randomizam políticas de augmentação em vez de designá-las manualmente. Cutout/CutMix mascara ou mistura aleatoriamente patches de diferentes imagens. MixUp interpola entre pares de exemplos, criando pontos sintéticos de treinamento que suavizam fronteiras de decisão. Essas técnicas são agora padrão em pipelines de treinamento de visão.

Augmentação Potencializada por IA

Com modelos generativos, augmentação vai além de transformações geométricas. Você pode usar LLMs para parafrasear dados de treinamento de texto, modelos de difusão para gerar imagens variantes, ou modelos para criar exemplos de treinamento inteiramente novos (dados sintéticos). A linha entre "augmentação" (modificar exemplos existentes) e "dados sintéticos" (gerar novos exemplos) está se tornando turva, e ambos estão se tornando partes essenciais de pipelines de treinamento modernos.

Conceitos relacionados

← Todos os termos
← Atenção Esparsa Automação →