人工神经元是受生物神经元的松散启发,但不应将其视为字面类比。生物神经元通过树突接收电信号,在细胞体中整合,并通过轴突发射(或不发射)信号。人工神经元的计算方式为:输出 = 激活函数(w1·x1 + w2·x2 + ... + wn·xn + 偏置)。权重(w)决定了每个输入的重要程度。偏置移动激活阈值。激活函数(ReLU、GELU)引入非线性。
感知机(Rosenblatt,1958)是第一个人工神经元——一个能够学习对线性可分数据进行分类的单元。Minsky和Papert在1969年证明单个感知机无法学习XOR(一个简单的非线性函数),这促成了第一次AI寒冬。解决方案是:堆叠多层神经元(多层感知机/MLP),在足够多的神经元条件下可以学习任何函数。这就是万能近似定理——深度学习的理论基础。
像Llama-70B这样的模型大约有700亿个参数(连接神经元的权重和偏置)。每个前馈层有数千个神经元。但现代研究表明,单个神经元通常并不对应单一概念——相反,概念被编码为跨多个神经元的激活空间中的方向(叠加态)。一个神经元可能同时参与编码数十种不同的特征,这使得解释变得具有挑战性。