Zubnet AIAprenderWiki › Convolution
Fundamentos

Convolution

Conv, Convolutional Layer, Kernel, Filter
Una operación matemática que desliza un pequeño filtro (kernel) a través de una entrada para detectar patrones locales. En imágenes, un kernel 3×3 se desliza a través de cada posición, calculando un producto escalar con los píxeles subyacentes para producir un feature map. Diferentes kernels detectan diferentes patrones: bordes horizontales, bordes verticales, texturas, y eventualmente features complejos como ojos o ruedas en capas más profundas.

Por qué importa

La convolución es la operación que hizo funcionar la visión por computadora. Codifica dos suposiciones poderosas: localidad (píxeles cercanos están relacionados) y equivarianza de traslación (un patrón es el mismo sin importar dónde aparezca). Estas suposiciones reducen dramáticamente el número de parámetros comparado con capas totalmente conectadas, haciendo factible procesar imágenes de alta resolución. Incluso en la era Transformer, las convoluciones se usan en muchas arquitecturas híbridas.

Deep Dive

A convolution with a 3×3 kernel: at each position, multiply the 9 kernel values with the 9 underlying input values and sum them. This produces one output value. Slide the kernel to the next position and repeat. A single kernel produces one feature map (detecting one pattern). Multiple kernels produce multiple feature maps. Stride (how far the kernel moves each step) and padding (how to handle edges) are additional parameters that control the output size.

Depth and Hierarchy

In a CNN, early layers use small kernels to detect simple patterns. Each subsequent layer convolves over the previous layer's feature maps, detecting progressively more complex patterns. Layer 1: edges. Layer 2: corners and textures (combinations of edges). Layer 3: object parts (combinations of textures). Layer 4: objects (combinations of parts). This hierarchical feature learning is the fundamental mechanism behind CNNs' success in vision.

1D and 3D Convolutions

Convolutions aren't limited to 2D images. 1D convolutions process sequences (audio waveforms, time series, text), sliding a kernel along one dimension. 3D convolutions process volumes (video, medical scans), sliding along three dimensions. The principle is identical: local pattern detection with parameter sharing. 1D convolutions are used in some modern architectures (ConvNeXt, Hyena) as efficient alternatives to attention for certain operations.

Conceptos relacionados

← Todos los términos
ESC