AlexNet का आर्किटेक्चर आधुनिक मानकों से अपेक्षाकृत सरल था: 5 convolutional लेयर्स, 3 fully connected लेयर्स, ReLU activation, max pooling, और dropout। कुल पैरामीटर काउंट ~60 मिलियन था। जो इसे विशेष बनाता था वह GPUs पर प्रशिक्षण (प्रत्येक 3GB VRAM वाले दो GTX 580s — आज के मानकों से बहुत छोटे), data augmentation का उपयोग, और ImageNet के 1.2 मिलियन प्रशिक्षण इमेजों पर लागू होना — एक ऐसा पैमाना जो पिछले neural दृष्टिकोणों ने प्रयास नहीं किया था।
AlexNet की सफलता तीन चीज़ों से आई जो अब स्पष्ट हैं लेकिन 2012 में क्रांतिकारी थीं: (1) बड़ा डेटासेट (ImageNet, 1.2M इमेज), (2) GPU प्रशिक्षण (गणना को व्यवहार्य बनाना), और (3) ReLU के साथ गहरा आर्किटेक्चर (vanishing gradient समस्या से बचना जिसने पहले के नेटवर्कों को सीमित किया था)। ये तीन सामग्री — डेटा, compute, और आर्किटेक्चरल नवाचार — आज भी AI सफलताओं का नुस्खा बनी हुई हैं, बस बहुत बड़े पैमाने पर।
AlexNet का प्रभाव तत्काल और स्थायी था। एक वर्ष के भीतर, हर प्रतिस्पर्धी ImageNet प्रविष्टि एक गहरा CNN था। तीन वर्षों के भीतर, VGGNet और GoogLeNet ने और गहराई में धकेला। ResNet (2015) 152 लेयर्स तक पहुंच गया। कंप्यूटर विज़न समुदाय लगभग पूरी तरह से deep learning की ओर मुड़ गया, और दृष्टिकोण NLP (word embeddings, फिर RNNs, फिर Transformers), speech, और अंततः हर AI डोमेन में फैल गया। सह-लेखक Ilya Sutskever ने OpenAI की सह-स्थापना की।