La arquitectura de AlexNet era relativamente simple para los estándares modernos: 5 capas convolucionales, 3 capas totalmente conectadas, activación ReLU, max pooling y dropout. El conteo total de parámetros era ~60 millones. Lo que la hizo especial fue el entrenamiento en GPU (dos GTX 580 con 3GB de VRAM cada una — minúsculo para los estándares actuales), el uso de aumento de datos y ser aplicada a los 1.2 millones de imágenes de entrenamiento de ImageNet — una escala que los enfoques neuronales anteriores no habían intentado.
El éxito de AlexNet provino de tres cosas que ahora son obvias pero fueron revolucionarias en 2012: (1) un dataset grande (ImageNet, 1.2M de imágenes), (2) entrenamiento en GPU (haciendo el cómputo factible), y (3) una arquitectura profunda con ReLU (evitando el problema de gradientes que se desvanecen que había limitado a las redes anteriores). Estos tres ingredientes — datos, cómputo e innovación arquitectónica — siguen siendo la receta para avances en IA hoy, solo que a una escala mucho mayor.
El impacto de AlexNet fue inmediato y permanente. En un año, cada entrada competitiva de ImageNet era una CNN profunda. En tres años, VGGNet y GoogLeNet fueron más profundas. ResNet (2015) alcanzó 152 capas. La comunidad de visión por computadora pivotó casi por completo al deep learning, y el enfoque se extendió a NLP (word embeddings, luego RNNs, luego Transformers), habla y eventualmente cada dominio de IA. El coautor Ilya Sutskever cofundó OpenAI.