A arquitetura de AlexNet era relativamente simples pelos padrões modernos: 5 camadas convolucionais, 3 camadas totalmente conectadas, ativação ReLU, max pooling e dropout. A contagem total de parâmetros era ~60 milhões. O que a tornou especial foi treinar em GPUs (duas GTX 580 com 3GB VRAM cada — minúsculas pelos padrões de hoje), usar data augmentation e ser aplicada aos 1,2 milhão de imagens de treinamento do ImageNet — uma escala que abordagens neurais anteriores não haviam tentado.
O sucesso de AlexNet veio de três coisas que agora são óbvias mas eram revolucionárias em 2012: (1) dataset grande (ImageNet, 1,2M imagens), (2) treinamento em GPU (tornando a computação viável) e (3) arquitetura profunda com ReLU (evitando o problema de gradiente que desaparece que havia limitado redes anteriores). Esses três ingredientes — dados, computação e inovação arquitetural — continuam sendo a receita para avanços em IA hoje, apenas em escala muito maior.
O impacto de AlexNet foi imediato e permanente. Em um ano, toda entrada competitiva no ImageNet era uma CNN profunda. Em três anos, VGGNet e GoogLeNet foram mais fundo. ResNet (2015) alcançou 152 camadas. A comunidade de visão computacional pivotou quase inteiramente para deep learning, e a abordagem se espalhou para NLP (word embeddings, depois RNNs, depois Transformers), fala e eventualmente todo domínio de IA. O coautor Ilya Sutskever foi cofundar a OpenAI.