L'architecture d'AlexNet était relativement simple pour les standards modernes : 5 couches convolutionnelles, 3 couches fully connected, activation ReLU, max pooling et dropout. Le nombre total de paramètres était d'environ 60 millions. Ce qui le rendait spécial, c'était l'entraînement sur GPU (deux GTX 580 avec 3 Go de VRAM chacune — minuscule pour les standards d'aujourd'hui), l'utilisation de l'augmentation de données, et l'application aux 1.2 million d'images d'entraînement d'ImageNet — une échelle que les approches neuronales précédentes n'avaient pas tentée.
Le succès d'AlexNet venait de trois choses qui sont maintenant évidentes mais étaient révolutionnaires en 2012 : (1) un grand jeu de données (ImageNet, 1.2M d'images), (2) l'entraînement sur GPU (rendant le calcul faisable), et (3) une architecture profonde avec ReLU (évitant le problème des gradients qui s'évanouissent qui avait limité les réseaux antérieurs). Ces trois ingrédients — données, calcul et innovation architecturale — restent la recette des percées en IA aujourd'hui, juste à une échelle bien plus grande.
L'impact d'AlexNet a été immédiat et permanent. En un an, chaque entrée compétitive à ImageNet était un CNN profond. En trois ans, VGGNet et GoogLeNet sont allés plus profond. ResNet (2015) a atteint 152 couches. La communauté de la vision par ordinateur a pivoté presque entièrement vers l'apprentissage profond, et l'approche s'est étendue au NLP (embeddings de mots, puis RNN, puis Transformers), à la parole et finalement à chaque domaine de l'IA. Le co-auteur Ilya Sutskever a ensuite co-fondé OpenAI.