CNN: Definición y significado — Wiki de IA

Una arquitectura de red neuronal diseñada para procesar datos con estructura de cuadrícula (imágenes, espectrogramas de audio) deslizando pequeños filtros (kernels) sobre la entrada para detectar patrones locales como bordes, texturas y formas. Las CNNs dominaron la visión por computadora desde 2012 (AlexNet) hasta que los Vision Transformers surgieron alrededor de 2020. Siguen siendo ampliamente usadas en producción, especialmente en dispositivos edge.

Por qué importa

Las CNNs iniciaron la revolución del deep learning. La victoria de AlexNet en ImageNet en 2012 demostró que las redes neuronales profundas podían superar dramáticamente las características diseñadas a mano, desencadenando el boom actual de la IA. Entender las CNNs te ayuda a entender por qué los Transformers funcionan (muchas de las mismas ideas — características jerárquicas, compartición de parámetros — aplican), y las CNNs siguen siendo la mejor opción para muchas tareas de visión en dispositivos con recursos limitados.

En profundidad

La operación central de una CNN es la convolución: un pequeño filtro (digamos de 3×3 píxeles) se desliza sobre la imagen, calculando un producto punto en cada posición para detectar un patrón específico. Las primeras capas aprenden patrones simples (bordes, gradientes de color). Las capas más profundas combinan estos en características cada vez más complejas (ojos, ruedas, caras). Las capas de pooling reducen la resolución entre capas de convolución, disminuyendo las dimensiones espaciales mientras preservan las características importantes.

Por qué Funcionan las CNNs

Dos propiedades clave hacen a las CNNs eficientes: equivarianza a la traslación (un gato es un gato sin importar dónde aparezca en la imagen — el mismo filtro lo detecta en todas partes) y localidad (los píxeles cercanos están más relacionados que los distantes). Estas propiedades reducen drásticamente el número de parámetros comparado con redes completamente conectadas, haciendo a las CNNs viables para imágenes de alta resolución.

CNNs Más Allá de las Imágenes

Las CNNs no se limitan a imágenes. Las convoluciones 1D procesan secuencias (formas de onda de audio, series temporales). WaveNet (para síntesis de voz) y algunos modelos de clasificación de texto usan CNNs 1D. En audio, los espectrogramas se tratan como imágenes 2D y se procesan con CNNs 2D estándar. Incluso en la era de los Transformers, algunas arquitecturas híbridas usan capas convolucionales para extracción de características locales antes de alimentar las capas de atención.

CNN

Por qué importa

En profundidad

Por qué Funcionan las CNNs

CNNs Más Allá de las Imágenes

Conceptos relacionados