A operação central de uma CNN é a convolução: um filtro pequeno (digamos 3×3 pixels) desliza sobre a imagem, calculando um produto escalar em cada posição para detectar um padrão específico. Camadas iniciais aprendem padrões simples (bordas, gradientes de cor). Camadas mais profundas combinam esses padrões em características cada vez mais complexas (olhos, rodas, rostos). Camadas de pooling reduzem a resolução entre as camadas de convolução, diminuindo as dimensões espaciais enquanto preservam características importantes.
Duas propriedades-chave tornam CNNs eficientes: equivariância translacional (um gato é um gato independentemente de onde aparece na imagem — o mesmo filtro o detecta em qualquer lugar) e localidade (pixels próximos são mais relacionados que pixels distantes). Essas propriedades reduzem drasticamente o número de parâmetros comparado a redes totalmente conectadas, tornando CNNs viáveis para imagens de alta resolução.
CNNs não se limitam a imagens. Convoluções 1D processam sequências (áudio, séries temporais). WaveNet (para síntese de fala) e alguns modelos de classificação de texto usam CNNs 1D. Em áudio, espectrogramas são tratados como imagens 2D e processados com CNNs 2D padrão. Mesmo na era dos Transformers, algumas arquiteturas híbridas usam camadas convolucionais para extração de características locais antes de alimentar camadas de attention.