L'opération centrale d'un CNN est la convolution : un petit filtre (disons 3×3 pixels) glisse sur l'image, calculant un produit scalaire à chaque position pour détecter un pattern spécifique. Les couches initiales apprennent des patterns simples (contours, gradients de couleur). Les couches plus profondes combinent ceux-ci en caractéristiques de plus en plus complexes (yeux, roues, visages). Les couches de pooling sous-échantillonnent entre les couches de convolution, réduisant les dimensions spatiales tout en préservant les caractéristiques importantes.
Deux propriétés clés rendent les CNN efficaces : l'équivariance par translation (un chat est un chat peu importe où il apparaît dans l'image — le même filtre le détecte partout) et la localité (les pixels voisins sont plus reliés que les pixels éloignés). Ces propriétés réduisent drastiquement le nombre de paramètres comparé aux réseaux entièrement connectés, rendant les CNN praticables pour les images haute résolution.
Les CNN ne se limitent pas aux images. Les convolutions 1D traitent des séquences (formes d'onde audio, séries temporelles). WaveNet (pour la synthèse vocale) et certains modèles de classification de texte utilisent des CNN 1D. En audio, les spectrogrammes sont traités comme des images 2D et traités avec des CNN 2D standards. Même à l'ère du Transformer, certaines architectures hybrides utilisent des couches convolutives pour l'extraction de caractéristiques locales avant d'alimenter les couches d'attention.