Zubnet AIApprendreWiki › Data Augmentation
Training

Data Augmentation

Des techniques qui élargissent artificiellement un dataset d'entraînement en créant des versions modifiées d'exemples existants. Pour les images : flip, rotation, crop, color shift. Pour le texte : paraphrase, back-translation, substitution de synonyme. Pour l'audio : changements de vitesse, injection de bruit. Le but est d'enseigner au modèle des invariances — un chat est un chat que l'image soit flippée, assombrie ou croppée.

Pourquoi c'est important

La data augmentation est la façon la moins chère d'améliorer la performance du modèle quand t'as des données limitées. Ça réduit l'overfitting en montrant au modèle beaucoup de variations de chaque exemple, lui enseignant à se concentrer sur les features essentiels plutôt que les détails superficiels. En computer vision, l'augmentation fournit routinièrement 2–5 % d'amélioration de précision gratuitement.

Deep Dive

The key principle: augmentations must preserve the label. Flipping a cat image horizontally still shows a cat (valid augmentation). Flipping a "turn left" sign makes it a "turn right" sign (invalid augmentation). Choosing appropriate augmentations requires understanding what invariances matter for your task.

Modern Augmentation

AutoAugment and its successors (RandAugment, TrivialAugment) learn or randomize augmentation policies instead of hand-designing them. Cutout/CutMix randomly masks or mixes patches from different images. MixUp interpolates between pairs of examples, creating synthetic training points that smooth decision boundaries. These techniques are now standard in vision training pipelines.

AI-Powered Augmentation

With generative models, augmentation goes beyond geometric transforms. You can use LLMs to paraphrase text training data, use diffusion models to generate variant images, or use models to create entirely new training examples (synthetic data). The line between "augmentation" (modifying existing examples) and "synthetic data" (generating new examples) is blurring, and both are becoming essential parts of modern training pipelines.

Concepts liés

← Tous les termes
← Cursor Data Centers →