Convolution : Définition et signification — Wiki IA

Une opération mathématique qui fait glisser un petit filtre (noyau) sur une entrée pour détecter des patterns locaux. Dans les images, un noyau 3×3 glisse sur chaque position, calculant un produit scalaire avec les pixels sous-jacents pour produire une carte de caractéristiques. Différents noyaux détectent différents patterns : bords horizontaux, bords verticaux, textures, et finalement des caractéristiques complexes comme des yeux ou des roues dans les couches plus profondes.

Pourquoi c'est important

La convolution est l'opération qui a fait fonctionner la vision par ordinateur. Elle encode deux hypothèses puissantes : la localité (les pixels voisins sont liés) et l'équivariance par translation (un pattern est le même quel que soit l'endroit où il apparaît). Ces hypothèses réduisent dramatiquement le nombre de paramètres par rapport aux couches entièrement connectées, rendant faisable le traitement d'images haute résolution. Même à l'ère des Transformers, les convolutions sont utilisées dans beaucoup d'architectures hybrides.

En profondeur

Une convolution avec un noyau 3×3 : à chaque position, multiplier les 9 valeurs du noyau avec les 9 valeurs d'entrée sous-jacentes et les sommer. Ça produit une valeur de sortie. Déplacer le noyau à la position suivante et répéter. Un seul noyau produit une carte de caractéristiques (détectant un pattern). Plusieurs noyaux produisent plusieurs cartes de caractéristiques. Le stride (de combien le noyau se déplace à chaque pas) et le padding (comment gérer les bords) sont des paramètres additionnels qui contrôlent la taille de sortie.

Profondeur et hiérarchie

Dans un CNN, les premières couches utilisent de petits noyaux pour détecter des patterns simples. Chaque couche suivante convolue sur les cartes de caractéristiques de la couche précédente, détectant des patterns progressivement plus complexes. Couche 1 : bords. Couche 2 : coins et textures (combinaisons de bords). Couche 3 : parties d'objets (combinaisons de textures). Couche 4 : objets (combinaisons de parties). Cet apprentissage hiérarchique de caractéristiques est le mécanisme fondamental derrière le succès des CNN en vision.

Convolutions 1D et 3D

Les convolutions ne sont pas limitées aux images 2D. Les convolutions 1D traitent des séquences (formes d'onde audio, séries temporelles, texte), faisant glisser un noyau le long d'une dimension. Les convolutions 3D traitent des volumes (vidéo, scans médicaux), glissant le long de trois dimensions. Le principe est identique : détection de patterns locaux avec partage de paramètres. Les convolutions 1D sont utilisées dans certaines architectures modernes (ConvNeXt, Hyena) comme alternatives efficaces à l'attention pour certaines opérations.