AlexNet是AI历史上的"前后"分水岭时刻。2012年之前,大多数AI研究者从事特征工程和非神经方法。AlexNet之后,深度学习成为主导范式。每个现代AI系统——GPT、Claude、Stable Diffusion——都追溯到AlexNet引发的范式转变。它是现代AI的大爆炸。
以现代标准衡量,AlexNet的架构相对简单:5个卷积层、3个全连接层、ReLU激活、最大池化和dropout。总参数量约6000万。使其特别的是在GPU上训练(两块GTX 580,每块仅3GB显存——以今天的标准来看微不足道)、使用数据增强,并应用于ImageNet的120万张训练图像——这是之前神经方法未曾尝试的规模。
AlexNet的成功来自三件在2012年革命性但现在看来显而易见的事:(1) 大数据集(ImageNet,120万张图像),(2) GPU训练(使计算可行),(3) 带ReLU的深度架构(避免了限制早期网络的梯度消失问题)。这三个要素——数据、算力和架构创新——至今仍是AI突破的秘诀,只是规模大得多。
AlexNet的影响是即时而永久的。一年内,每个有竞争力的ImageNet参赛作品都是深度CNN。三年内,VGGNet和GoogLeNet推向更深。ResNet(2015)达到了152层。计算机视觉社区几乎完全转向深度学习,该方法扩展到NLP(词嵌入、然后RNN、然后Transformer)、语音,最终扩展到每个AI领域。合著者Ilya Sutskever后来联合创立了OpenAI。