La operación central de una CNN es la convolución: un pequeño filtro (digamos de 3×3 píxeles) se desliza sobre la imagen, calculando un producto punto en cada posición para detectar un patrón específico. Las primeras capas aprenden patrones simples (bordes, gradientes de color). Las capas más profundas combinan estos en características cada vez más complejas (ojos, ruedas, caras). Las capas de pooling reducen la resolución entre capas de convolución, disminuyendo las dimensiones espaciales mientras preservan las características importantes.
Dos propiedades clave hacen a las CNNs eficientes: equivarianza a la traslación (un gato es un gato sin importar dónde aparezca en la imagen — el mismo filtro lo detecta en todas partes) y localidad (los píxeles cercanos están más relacionados que los distantes). Estas propiedades reducen drásticamente el número de parámetros comparado con redes completamente conectadas, haciendo a las CNNs viables para imágenes de alta resolución.
Las CNNs no se limitan a imágenes. Las convoluciones 1D procesan secuencias (formas de onda de audio, series temporales). WaveNet (para síntesis de voz) y algunos modelos de clasificación de texto usan CNNs 1D. En audio, los espectrogramas se tratan como imágenes 2D y se procesan con CNNs 2D estándar. Incluso en la era de los Transformers, algunas arquitecturas híbridas usan capas convolucionales para extracción de características locales antes de alimentar las capas de atención.