神经网络：定义与含义 — AI 维基

一种受生物大脑启发，由多层相互连接的“神经元”（数学函数）组成，这些神经元通过数据学习模式的计算系统。信息通过各层流动，逐步转换，直到网络产生输出。每个现代AI模型都是一种神经网络。

为什么重要

神经网络是所有AI的原理。理解它们其实是数学（而不是魔法，也不是大脑）有助于澄清AI能做什么和不能做什么。它们是模式匹配器—极其强大的模式匹配器，但终究还是模式匹配器。

深度解析

从根本上说，神经网络是一串矩阵乘法运算，其间穿插着非线性函数。每个“神经元”对其输入进行加权求和，加上一个偏置项，然后将结果通过一个激活函数（如ReLU、GELU、sigmoid等）。将成千上万个这样的神经元堆叠成层，再将数十层堆叠起来，你就能得到一个能够学习极其复杂函数的网络——从识别人脸到生成散文再到折叠蛋白质。这种神奇之处并不在于任何一个单独的神经元（其数学运算极其简单），而在于组合：层层叠加，每一层都逐步学习输入数据的更抽象表示。

训练机制

训练神经网络意味着找到所有这些权重和偏置的正确值——通常有数十亿个。这通过反向传播和梯度下降实现。你将输入送入网络，将其输出与期望答案进行比较，计算其错误程度（损失），然后从最后一层反向计算每一层权重对错误的贡献。每个权重都会被略微调整，以减少损失。在整个数据集上重复数十亿次这一过程，网络就会收敛到能够生成有用输出的权重。这个过程在概念上很直接，但要在大规模上实现它需要精细的工程设计：学习率调度、批量归一化、权重初始化策略，以及大量的GPU内存。

通往2012年的道路

了解我们今天所处的位置，历史是关键。神经网络最早在1940年代被提出，在1960年代（感知机）曾一度繁荣，随后经历了一个漫长的“AI寒冬”，逐渐失宠。现代复兴始于2012年，当时一种名为AlexNet的深度卷积神经网络在ImageNet竞赛中以令人震惊的差距击败了所有对手。改变的并非理论——反向传播自1980年代起就已存在——而是硬件（GPU使大规模并行计算变得经济可行）和数据（互联网提供了比以往大几个数量级的训练集）。自那以后，每一次重大AI突破，从AlphaGo到GPT-4再到Sora，都是某种类型的神经网络。

架构动物园

如今，“神经网络”这一术语涵盖了一整套庞大的架构家族，每种架构都适用于不同的问题。卷积神经网络（CNN）通过利用空间结构主导图像任务。循环神经网络（RNN）及其LSTM变体曾是处理序列数据的首选，直到被Transformer取代。基于自注意力机制的Transformer如今驱动着几乎所有现代大型语言模型（LLM）。状态空间模型（SSM）如Mamba则为长序列提供了线性时间复杂度的替代方案，而非Transformer的二次方成本。图神经网络处理分子结构和社会网络。扩散模型（一种通过逆转噪声过程训练的神经网络）生成图像和视频。你选择的架构决定了模型能高效学习的内容，而为问题选择错误的架构可能比拥有更多数据或计算资源更重要。

并非真正的脑

一个持续存在的误解是，神经网络的工作方式“就像大脑”。实际上它们并不相似。生物神经元通过定时的电信号进行通信，形成循环回路，物理重接线，并在时间尺度和能耗预算上与硅基设备完全不同。人工神经网络借用了连接节点的隐喻，但几乎完全偏离了生物学。如今从事严肃AI研究的人几乎不会参考神经科学论文来设计更好的Transformer。大脑的类比仅在五秒的直觉（“它从示例中学习”）时有用，但对更深入的理解却具有误导性。神经网络实际上是什么——通过梯度下降训练的可微分函数逼近器——既不浪漫，但更精确地有助于理解。

神经网络