Zubnet AIApprendreWiki › Convolution
Fondamentaux

Convolution

Conv, Convolutional Layer, Kernel, Filter
Une opération mathématique qui glisse un petit filtre (kernel) à travers une entrée pour détecter des patterns locaux. Dans les images, un kernel 3×3 glisse à travers chaque position, calculant un dot product avec les pixels sous-jacents pour produire une feature map. Différents kernels détectent différents patterns : contours horizontaux, contours verticaux, textures, et éventuellement des features complexes comme les yeux ou les roues dans les couches plus profondes.

Pourquoi c'est important

La convolution est l'opération qui a fait marcher la vision par ordinateur. Elle encode deux hypothèses puissantes : la localité (les pixels proches sont reliés) et l'équivariance par translation (un pattern est le même peu importe où il apparaît). Ces hypothèses réduisent dramatiquement le nombre de paramètres comparé aux couches entièrement connectées, rendant faisable le traitement d'images haute résolution. Même à l'ère Transformer, les convolutions sont utilisées dans beaucoup d'architectures hybrides.

Deep Dive

A convolution with a 3×3 kernel: at each position, multiply the 9 kernel values with the 9 underlying input values and sum them. This produces one output value. Slide the kernel to the next position and repeat. A single kernel produces one feature map (detecting one pattern). Multiple kernels produce multiple feature maps. Stride (how far the kernel moves each step) and padding (how to handle edges) are additional parameters that control the output size.

Depth and Hierarchy

In a CNN, early layers use small kernels to detect simple patterns. Each subsequent layer convolves over the previous layer's feature maps, detecting progressively more complex patterns. Layer 1: edges. Layer 2: corners and textures (combinations of edges). Layer 3: object parts (combinations of textures). Layer 4: objects (combinations of parts). This hierarchical feature learning is the fundamental mechanism behind CNNs' success in vision.

1D and 3D Convolutions

Convolutions aren't limited to 2D images. 1D convolutions process sequences (audio waveforms, time series, text), sliding a kernel along one dimension. 3D convolutions process volumes (video, medical scans), sliding along three dimensions. The principle is identical: local pattern detection with parameter sharing. 1D convolutions are used in some modern architectures (ConvNeXt, Hyena) as efficient alternatives to attention for certain operations.

Concepts liés

← Tous les termes
ESC