Zubnet AI学习Wiki › 层
基础

别名:隐藏层、神经网络层
神经网络中在特定抽象级别处理数据的一组神经元。输入层接收原始数据。隐藏层(中间层)学习越来越抽象的表示。输出层产生最终结果。“深度”学习意味着许多隐藏层——现代LLM有32到128+层。

为什么重要

层创造了使深度学习强大的层次结构。早期层学习简单模式(图像中的边缘,文本中的词片段)。中间层将这些组合成概念(面孔、短语)。深层将概念组合成高级理解(场景识别、推理)。网络的深度决定了它能学习的模式的复杂程度。

深度解析

在Transformer中,每一层(称为“块”)由两个子层组成:多头注意力层(在token之间混合信息)和前馈网络(独立处理每个token)。每个子层都有残差连接(输入被加回到输出中)和归一化。一个32层的Transformer将注意力+FFN模式应用32次,每次都在精化表示。

跨层发生了什么

研究揭示了LLM中的一个大致模式:早期层处理语法和表面模式,中间层处理语义含义和实体识别,后期层处理特定任务的推理和输出格式化。这不是硬边界——信息通过残差连接在所有层之间流动——但这解释了为什么一些微调技术只修改某些层,以及为什么剪枝中间层通常比剪枝早期或后期层造成更大的损失。

宽度与深度

网络的“宽度”是每层的神经元数(模型维度),“深度”是层数。两者都很重要,但贡献不同:更宽的层可以同时表示更多特征,而更深的网络可以学习更复杂的组合模式。现代LLM往往既宽(维度4096–8192)又深(32–128层)。缩放定律表明,宽度和深度应该一起缩放以获得最佳性能。

相关概念

← 所有术语
← 少样本学习 嵌入 →