Zubnet AI学习Wiki › 神经网络
基础

神经网络

一种受生物大脑启发,由多层相互连接的“神经元”(数学函数)组成,这些神经元通过数据学习模式的计算系统。信息通过各层流动,逐步转换,直到网络产生输出。每个现代AI模型都是一种神经网络。

为什么重要

神经网络是所有AI的原理。理解它们其实是数学(而不是魔法,也不是大脑)有助于澄清AI能做什么和不能做什么。它们是模式匹配器—极其强大的模式匹配器,但终究还是模式匹配器。

深度解析

从根本上说,神经网络是一串矩阵乘法运算,其间穿插着非线性函数。每个“神经元”对其输入进行加权求和,加上一个偏置项,然后将结果通过一个激活函数(如ReLU、GELU、sigmoid等)。将成千上万个这样的神经元堆叠成层,再将数十层堆叠起来,你就能得到一个能够学习极其复杂函数的网络——从识别人脸到生成散文再到折叠蛋白质。这种神奇之处并不在于任何一个单独的神经元(其数学运算极其简单),而在于组合:层层叠加,每一层都逐步学习输入数据的更抽象表示。

训练机制

训练神经网络意味着找到所有这些权重和偏置的正确值——通常有数十亿个。这通过反向传播和梯度下降实现。你将输入送入网络,将其输出与期望答案进行比较,计算其错误程度(损失),然后从最后一层反向计算每一层权重对错误的贡献。每个权重都会被略微调整,以减少损失。在整个数据集上重复数十亿次这一过程,网络就会收敛到能够生成有用输出的权重。这个过程在概念上很直接,但要在大规模上实现它需要精细的工程设计:学习率调度、批量归一化、权重初始化策略,以及大量的GPU内存。

通往2012年的道路

了解我们今天所处的位置,历史是关键。神经网络最早在1940年代被提出,在1960年代(感知机)曾一度繁荣,随后经历了一个漫长的“AI寒冬”,逐渐失宠。现代复兴始于2012年,当时一种名为AlexNet的深度卷积神经网络在ImageNet竞赛中以令人震惊的差距击败了所有对手。改变的并非理论——反向传播自1980年代起就已存在——而是硬件(GPU使大规模并行计算变得经济可行)和数据(互联网提供了比以往大几个数量级的训练集)。自那以后,每一次重大AI突破,从AlphaGo到GPT-4再到Sora,都是某种类型的神经网络。

架构动物园

如今,“神经网络”这一术语涵盖了一整套庞大的架构家族,每种架构都适用于不同的问题。卷积神经网络(CNN)通过利用空间结构主导图像任务。循环神经网络(RNN)及其LSTM变体曾是处理序列数据的首选,直到被Transformer取代。基于自注意力机制的Transformer如今驱动着几乎所有现代大型语言模型(LLM)。状态空间模型(SSM)如Mamba则为长序列提供了线性时间复杂度的替代方案,而非Transformer的二次方成本。图神经网络处理分子结构和社会网络。扩散模型(一种通过逆转噪声过程训练的神经网络)生成图像和视频。你选择的架构决定了模型能高效学习的内容,而为问题选择错误的架构可能比拥有更多数据或计算资源更重要。

并非真正的脑

一个持续存在的误解是,神经网络的工作方式“就像大脑”。实际上它们并不相似。生物神经元通过定时的电信号进行通信,形成循环回路,物理重接线,并在时间尺度和能耗预算上与硅基设备完全不同。人工神经网络借用了连接节点的隐喻,但几乎完全偏离了生物学。如今从事严肃AI研究的人几乎不会参考神经科学论文来设计更好的Transformer。大脑的类比仅在五秒的直觉(“它从示例中学习”)时有用,但对更深入的理解却具有误导性。神经网络实际上是什么——通过梯度下降训练的可微分函数逼近器——既不浪漫,但更精确地有助于理解。

相关概念

← 所有术语
← NVIDIA 开放权重 →
ESC