O princípio chave: augmentações devem preservar o rótulo. Espelhar uma imagem de gato horizontalmente ainda mostra um gato (augmentação válida). Espelhar uma placa de "vire à esquerda" a transforma em "vire à direita" (augmentação inválida). Escolher augmentações apropriadas requer entender quais invariâncias importam para sua tarefa.
AutoAugment e seus sucessores (RandAugment, TrivialAugment) aprendem ou randomizam políticas de augmentação em vez de designá-las manualmente. Cutout/CutMix mascara ou mistura aleatoriamente patches de diferentes imagens. MixUp interpola entre pares de exemplos, criando pontos sintéticos de treinamento que suavizam fronteiras de decisão. Essas técnicas são agora padrão em pipelines de treinamento de visão.
Com modelos generativos, augmentação vai além de transformações geométricas. Você pode usar LLMs para parafrasear dados de treinamento de texto, modelos de difusão para gerar imagens variantes, ou modelos para criar exemplos de treinamento inteiramente novos (dados sintéticos). A linha entre "augmentação" (modificar exemplos existentes) e "dados sintéticos" (gerar novos exemplos) está se tornando turva, e ambos estão se tornando partes essenciais de pipelines de treinamento modernos.