深度学习的发展历程有一个明确的转折点:2012年的ImageNet竞赛,Alex Krizhevsky的卷积神经网络(AlexNet)以压倒性的优势击败了所有其他方法,这一结果令整个领域震惊。亚军团队使用的是计算机视觉博士生经过多年精心调优手工设计的特征。而AlexNet仅使用了两个GTX 580 GPU训练约一周时间,包含五个卷积层。它通过直接从像素中学习自身特征而获胜,结果差距巨大——错误率在一年内从26%降至16%。这一成果不仅赢得了竞赛,更彻底改变了整个AI领域。两年内,几乎所有顶级计算机视觉成果都采用了深度神经网络。五年内,同样的方法已扩展至自然语言处理、语音识别和游戏领域。这一教训简单而残酷:让网络自行解决,只要给予足够的数据和计算资源。
“深度学习”中的“深度”并非仅仅是品牌宣传。深度是神经网络构建抽象概念的机制。在图像分类器中,第一层学习检测边缘——对对比边界有响应的简单方向梯度。第二层将这些边缘组合成纹理和角落。第三层将纹理组装成部件:眼睛、轮子、叶子。到最终层时,网络已处理人类可识别的高级概念。这种层次化组合正是深度网络能学习浅层网络无法实现的表示方式——每一层都建立在前一层之上,表示能力随深度呈组合式增长。同样的原理也适用于语言模型。早期层捕捉标记级语法和局部模式。中间层发展上下文理解,追踪跨句子的引用和关系。晚期层处理抽象推理、任务识别和输出规划。没有人明确编程这些层执行这些任务。这种结构源自在足够数据和足够深度上训练的涌现现象,这既是该方法的力量,也是其神秘之处。
没有GPU,深度学习根本不可能存在,这并非比喻。神经网络训练以矩阵乘法为主——前向传播、反向传播、权重更新,所有操作均可简化为大型矩阵相乘。CPU通过少量核心顺序执行这些操作。GPU则通过数千核心并行执行。两者的差距不是2倍或5倍,而是50到100倍。NVIDIA的CUDA平台最初为视频游戏图形设计,结果几乎完美适用于训练神经网络。这种硬件历史的偶然性是NVIDIA成为全球最有价值公司之一的主要原因。这种依赖关系此后愈发加深。现代训练任务使用数千个GPU通过高速互连通信,单次前沿模型训练成本已从2012年的数千美元攀升至2025年的数亿。这种硬件依赖也使得大多数没有机构支持或云计算额度的研究人员难以接触深度学习——这一矛盾至今未被完全解决。
扩展假设指出,通过增大模型规模(更多参数、更多数据、更多计算资源),可以提升模型智能性,且这种关系遵循可预测的幂律。数年内,这一假设似乎近乎不合理地成立。GPT-2(15亿参数)勉强能写出连贯段落,GPT-3(1750亿参数)能撰写文章并实现少样本学习,GPT-4通过了律师资格考试。每次规模跃升都带来模型能力的质变,而这些能力并未被明确训练。但该假设存在局限,领域正逐渐触及这些边界。训练数据即将耗尽——整个公共互联网已被刮取,合成数据又带来新问题。计算成本对最富有的实验室也变得难以承受。某些能力(可靠算术、一致的长期规划、不产生幻觉)似乎无法仅靠规模提升。结果是转向效率:更优的架构、更佳的训练方案、更精细的数据筛选,以及推理时的思维链推理等技术,从现有模型中提取更多能力。
截至2026年,Transformer架构已胜出。它主导语言模型,驱动大多数图像生成器(通过具有Transformer主干的扩散模型),处理音频、视频和多模态输入。但主导地位不等于永久性。Transformer的二次方注意力成本——每个token关注所有其他token——为长序列设定了硬性扩展壁垒。这正推动对替代方案的深入研究。状态空间模型(SSMs),特别是Mamba系列,通过维护压缩的隐藏状态而非显式成对注意力,在线性时间内处理序列。混合架构将Transformer层与SSM层结合,显示出强效结果:在短序列任务中保持Transformer的高质量,同时在长序列中获得SSM的效率。下一代基础模型几乎肯定不会是纯Transformer。它们将是混合架构——在最关键位置使用注意力,在其他位置采用更高效机制。深度学习的进化尚未结束,它刚刚完成第一幕。