在Transformer中,每一层(称为“块”)由两个子层组成:多头注意力层(在token之间混合信息)和前馈网络(独立处理每个token)。每个子层都有残差连接(输入被加回到输出中)和归一化。一个32层的Transformer将注意力+FFN模式应用32次,每次都在精化表示。
研究揭示了LLM中的一个大致模式:早期层处理语法和表面模式,中间层处理语义含义和实体识别,后期层处理特定任务的推理和输出格式化。这不是硬边界——信息通过残差连接在所有层之间流动——但这解释了为什么一些微调技术只修改某些层,以及为什么剪枝中间层通常比剪枝早期或后期层造成更大的损失。
网络的“宽度”是每层的神经元数(模型维度),“深度”是层数。两者都很重要,但贡献不同:更宽的层可以同时表示更多特征,而更深的网络可以学习更复杂的组合模式。现代LLM往往既宽(维度4096–8192)又深(32–128层)。缩放定律表明,宽度和深度应该一起缩放以获得最佳性能。