Le principe clé : les augmentations doivent préserver l'étiquette. Retourner horizontalement une image de chat montre toujours un chat (augmentation valide). Retourner un panneau « tournez à gauche » en fait un panneau « tournez à droite » (augmentation invalide). Choisir les augmentations appropriées nécessite de comprendre quelles invariances comptent pour ta tâche.
AutoAugment et ses successeurs (RandAugment, TrivialAugment) apprennent ou randomisent les politiques d'augmentation au lieu de les concevoir à la main. Cutout/CutMix masque ou mélange aléatoirement des patches de différentes images. MixUp interpole entre des paires d'exemples, créant des points d'entraînement synthétiques qui lissent les frontières de décision. Ces techniques sont maintenant standard dans les pipelines d'entraînement en vision.
Avec les modèles génératifs, l'augmentation va au-delà des transformations géométriques. Tu peux utiliser des LLM pour paraphraser des données textuelles d'entraînement, des modèles de diffusion pour générer des variantes d'images, ou des modèles pour créer des exemples d'entraînement entièrement nouveaux (données synthétiques). La frontière entre « augmentation » (modifier des exemples existants) et « données synthétiques » (générer de nouveaux exemples) s'estompe, et les deux deviennent des parties essentielles des pipelines d'entraînement modernes.