Zubnet AIApprendreWiki › CNN
Models

CNN

Convolutional Neural Network, ConvNet
Une architecture de réseau de neurones conçue pour traiter des données en forme de grille (images, spectrogrammes audio) en glissant de petits filtres (kernels) à travers l'entrée pour détecter des patterns locaux comme les contours, les textures et les formes. Les CNN ont dominé la vision par ordinateur de 2012 (AlexNet) jusqu'à l'émergence des Vision Transformers vers 2020. Ils sont encore largement utilisés en production, surtout sur les appareils edge.

Pourquoi c'est important

Les CNN ont lancé la révolution du deep learning. La victoire d'AlexNet à ImageNet en 2012 a prouvé que les réseaux de neurones profonds pouvaient dramatiquement surpasser les features faites à la main, déclenchant le boom actuel de l'IA. Comprendre les CNN t'aide à comprendre pourquoi les Transformers marchent (beaucoup des mêmes idées — features hiérarchiques, partage de paramètres — s'appliquent), et les CNN restent le meilleur choix pour beaucoup de tâches de vision sur des appareils contraints en ressources.

Deep Dive

A CNN's core operation is convolution: a small filter (say 3×3 pixels) slides across the image, computing a dot product at each position to detect a specific pattern. Early layers learn simple patterns (edges, color gradients). Deeper layers combine these into increasingly complex features (eyes, wheels, faces). Pooling layers downsample between convolution layers, reducing spatial dimensions while preserving important features.

Why CNNs Work

Two key properties make CNNs efficient: translation equivariance (a cat is a cat regardless of where it appears in the image — the same filter detects it everywhere) and locality (nearby pixels are more related than distant ones). These properties drastically reduce the number of parameters compared to fully connected networks, making CNNs tractable for high-resolution images.

CNNs Beyond Images

CNNs aren't limited to images. 1D convolutions process sequences (audio waveforms, time series). WaveNet (for speech synthesis) and some text classification models use 1D CNNs. In audio, spectrograms are treated as 2D images and processed with standard 2D CNNs. Even in the Transformer era, some hybrid architectures use convolutional layers for local feature extraction before feeding into attention layers.

Concepts liés

← Tous les termes
← Clustering Cohere →