Une convolution avec un noyau 3×3 : à chaque position, multiplier les 9 valeurs du noyau avec les 9 valeurs d'entrée sous-jacentes et les sommer. Ça produit une valeur de sortie. Déplacer le noyau à la position suivante et répéter. Un seul noyau produit une carte de caractéristiques (détectant un pattern). Plusieurs noyaux produisent plusieurs cartes de caractéristiques. Le stride (de combien le noyau se déplace à chaque pas) et le padding (comment gérer les bords) sont des paramètres additionnels qui contrôlent la taille de sortie.
Dans un CNN, les premières couches utilisent de petits noyaux pour détecter des patterns simples. Chaque couche suivante convolue sur les cartes de caractéristiques de la couche précédente, détectant des patterns progressivement plus complexes. Couche 1 : bords. Couche 2 : coins et textures (combinaisons de bords). Couche 3 : parties d'objets (combinaisons de textures). Couche 4 : objets (combinaisons de parties). Cet apprentissage hiérarchique de caractéristiques est le mécanisme fondamental derrière le succès des CNN en vision.
Les convolutions ne sont pas limitées aux images 2D. Les convolutions 1D traitent des séquences (formes d'onde audio, séries temporelles, texte), faisant glisser un noyau le long d'une dimension. Les convolutions 3D traitent des volumes (vidéo, scans médicaux), glissant le long de trois dimensions. Le principe est identique : détection de patterns locaux avec partage de paramètres. Les convolutions 1D sont utilisées dans certaines architectures modernes (ConvNeXt, Hyena) comme alternatives efficaces à l'attention pour certaines opérations.