Zubnet AIAprenderWiki › CNN
Models

CNN

Convolutional Neural Network, ConvNet
Una arquitectura de red neuronal diseñada para procesar datos en forma de grilla (imágenes, espectrogramas de audio) deslizando pequeños filtros (kernels) a través de la entrada para detectar patrones locales como bordes, texturas y formas. Los CNNs dominaron la visión por computadora desde 2012 (AlexNet) hasta que emergieron los Vision Transformers hacia 2020. Siguen siendo ampliamente usados en producción, especialmente en dispositivos edge.

Por qué importa

Los CNNs iniciaron la revolución del deep learning. La victoria de AlexNet en ImageNet 2012 demostró que las redes neuronales profundas podían superar dramáticamente a los features hechos a mano, disparando el boom actual de la IA. Entender los CNNs te ayuda a entender por qué funcionan los Transformers (muchas de las mismas ideas — features jerárquicos, compartición de parámetros — aplican), y los CNNs siguen siendo la mejor opción para muchas tareas de visión en dispositivos con recursos limitados.

Deep Dive

A CNN's core operation is convolution: a small filter (say 3×3 pixels) slides across the image, computing a dot product at each position to detect a specific pattern. Early layers learn simple patterns (edges, color gradients). Deeper layers combine these into increasingly complex features (eyes, wheels, faces). Pooling layers downsample between convolution layers, reducing spatial dimensions while preserving important features.

Why CNNs Work

Two key properties make CNNs efficient: translation equivariance (a cat is a cat regardless of where it appears in the image — the same filter detects it everywhere) and locality (nearby pixels are more related than distant ones). These properties drastically reduce the number of parameters compared to fully connected networks, making CNNs tractable for high-resolution images.

CNNs Beyond Images

CNNs aren't limited to images. 1D convolutions process sequences (audio waveforms, time series). WaveNet (for speech synthesis) and some text classification models use 1D CNNs. In audio, spectrograms are treated as 2D images and processed with standard 2D CNNs. Even in the Transformer era, some hybrid architectures use convolutional layers for local feature extraction before feeding into attention layers.

Conceptos relacionados

← Todos los términos
← Clustering Cohere →