Zubnet AIApprendreWiki › CNN
Modèles

CNN

Aussi appelé : Réseau de neurones convolutif, ConvNet
Une architecture de réseau de neurones conçue pour traiter des données en grille (images, spectrogrammes audio) en faisant glisser de petits filtres (noyaux) sur l'entrée pour détecter des patterns locaux comme les contours, les textures et les formes. Les CNN ont dominé la vision par ordinateur de 2012 (AlexNet) jusqu'à l'émergence des Vision Transformers vers 2020. Ils sont encore largement utilisés en production, surtout sur les appareils en périphérie.

Pourquoi c'est important

Les CNN ont lancé la révolution de l'apprentissage profond. La victoire d'AlexNet sur ImageNet en 2012 a prouvé que les réseaux de neurones profonds pouvaient surpasser de façon spectaculaire les caractéristiques conçues à la main, déclenchant le boom actuel de l'IA. Comprendre les CNN t'aide à comprendre pourquoi les Transformers fonctionnent (beaucoup des mêmes idées — caractéristiques hiérarchiques, partage de paramètres — s'appliquent), et les CNN restent le meilleur choix pour beaucoup de tâches de vision sur des appareils à ressources limitées.

En profondeur

L'opération centrale d'un CNN est la convolution : un petit filtre (disons 3×3 pixels) glisse sur l'image, calculant un produit scalaire à chaque position pour détecter un pattern spécifique. Les couches initiales apprennent des patterns simples (contours, gradients de couleur). Les couches plus profondes combinent ceux-ci en caractéristiques de plus en plus complexes (yeux, roues, visages). Les couches de pooling sous-échantillonnent entre les couches de convolution, réduisant les dimensions spatiales tout en préservant les caractéristiques importantes.

Pourquoi les CNN fonctionnent

Deux propriétés clés rendent les CNN efficaces : l'équivariance par translation (un chat est un chat peu importe où il apparaît dans l'image — le même filtre le détecte partout) et la localité (les pixels voisins sont plus reliés que les pixels éloignés). Ces propriétés réduisent drastiquement le nombre de paramètres comparé aux réseaux entièrement connectés, rendant les CNN praticables pour les images haute résolution.

Les CNN au-delà des images

Les CNN ne se limitent pas aux images. Les convolutions 1D traitent des séquences (formes d'onde audio, séries temporelles). WaveNet (pour la synthèse vocale) et certains modèles de classification de texte utilisent des CNN 1D. En audio, les spectrogrammes sont traités comme des images 2D et traités avec des CNN 2D standards. Même à l'ère du Transformer, certaines architectures hybrides utilisent des couches convolutives pour l'extraction de caractéristiques locales avant d'alimenter les couches d'attention.

Concepts connexes

← Tous les termes
← Clustering Cohere →
ESC