基础

层

别名：隐藏层、神经网络层

神经网络中在特定抽象级别处理数据的一组神经元。输入层接收原始数据。隐藏层（中间层）学习越来越抽象的表示。输出层产生最终结果。“深度”学习意味着许多隐藏层——现代LLM有32到128+层。

为什么重要

层创造了使深度学习强大的层次结构。早期层学习简单模式（图像中的边缘，文本中的词片段）。中间层将这些组合成概念（面孔、短语）。深层将概念组合成高级理解（场景识别、推理）。网络的深度决定了它能学习的模式的复杂程度。

深度解析

在Transformer中，每一层（称为“块”）由两个子层组成：多头注意力层（在token之间混合信息）和前馈网络（独立处理每个token）。每个子层都有残差连接（输入被加回到输出中）和归一化。一个32层的Transformer将注意力+FFN模式应用32次，每次都在精化表示。

跨层发生了什么

研究揭示了LLM中的一个大致模式：早期层处理语法和表面模式，中间层处理语义含义和实体识别，后期层处理特定任务的推理和输出格式化。这不是硬边界——信息通过残差连接在所有层之间流动——但这解释了为什么一些微调技术只修改某些层，以及为什么剪枝中间层通常比剪枝早期或后期层造成更大的损失。

宽度与深度

网络的“宽度”是每层的神经元数（模型维度），“深度”是层数。两者都很重要，但贡献不同：更宽的层可以同时表示更多特征，而更深的网络可以学习更复杂的组合模式。现代LLM往往既宽（维度4096–8192）又深（32–128层）。缩放定律表明，宽度和深度应该一起缩放以获得最佳性能。

相关概念

← 所有术语

← 少样本学习嵌入 →