Zubnet AIApprendreWiki › AlexNet
Modèles

AlexNet

Le réseau de neurones convolutionnel qui a remporté la compétition ImageNet 2012 avec une marge massive, déclenchant la révolution de l'apprentissage profond. Créé par Alex Krizhevsky, Ilya Sutskever et Geoffrey Hinton, AlexNet a réduit le taux d'erreur de classification d'images de 26% à 16% — un écart si grand qu'il a convaincu la communauté de la vision par ordinateur que l'apprentissage profond était fondamentalement supérieur aux features conçues à la main.

Pourquoi c'est important

AlexNet est le moment "avant et après" de l'histoire de l'IA. Avant 2012, la plupart des chercheurs en IA travaillaient sur l'ingénierie de features et les méthodes non neuronales. Après AlexNet, l'apprentissage profond est devenu le paradigme dominant. Chaque système d'IA moderne — GPT, Claude, Stable Diffusion — tire sa lignée du changement de paradigme qu'AlexNet a déclenché. C'est le Big Bang de l'IA moderne.

En profondeur

L'architecture d'AlexNet était relativement simple pour les standards modernes : 5 couches convolutionnelles, 3 couches fully connected, activation ReLU, max pooling et dropout. Le nombre total de paramètres était d'environ 60 millions. Ce qui le rendait spécial, c'était l'entraînement sur GPU (deux GTX 580 avec 3 Go de VRAM chacune — minuscule pour les standards d'aujourd'hui), l'utilisation de l'augmentation de données, et l'application aux 1.2 million d'images d'entraînement d'ImageNet — une échelle que les approches neuronales précédentes n'avaient pas tentée.

Les trois ingrédients clés

Le succès d'AlexNet venait de trois choses qui sont maintenant évidentes mais étaient révolutionnaires en 2012 : (1) un grand jeu de données (ImageNet, 1.2M d'images), (2) l'entraînement sur GPU (rendant le calcul faisable), et (3) une architecture profonde avec ReLU (évitant le problème des gradients qui s'évanouissent qui avait limité les réseaux antérieurs). Ces trois ingrédients — données, calcul et innovation architecturale — restent la recette des percées en IA aujourd'hui, juste à une échelle bien plus grande.

Les conséquences

L'impact d'AlexNet a été immédiat et permanent. En un an, chaque entrée compétitive à ImageNet était un CNN profond. En trois ans, VGGNet et GoogLeNet sont allés plus profond. ResNet (2015) a atteint 152 couches. La communauté de la vision par ordinateur a pivoté presque entièrement vers l'apprentissage profond, et l'approche s'est étendue au NLP (embeddings de mots, puis RNN, puis Transformers), à la parole et finalement à chaque domaine de l'IA. Le co-auteur Ilya Sutskever a ensuite co-fondé OpenAI.

Concepts connexes

← Tous les termes
← Ajustement par instructions Alibaba Cloud →