Transformer：定义与含义 — AI 维基

几乎所有现代大型语言模型（LLMs）以及许多图像和音频模型背后都使用了这种神经网络架构。由Google在2017年的论文“Attention Is All You Need”中首次提出，Transformer通过自注意力机制同时处理输入的所有部分，而非按顺序处理，从而在训练过程中实现大规模并行计算。

为什么重要

Transformer 是使当前 AI 热潮成为可能的架构。GPT、Claude、Gemini、Llama、Mistral — 它们实际上都是基于 Transformer 架构构建的。理解这一架构有助于你理解为什么这些模型具有它们所具备的能力和局限性。

深度解析

Transformer模块包含两个主要组件，它们依次堆叠在一起：一个多头自注意力层和一个前馈网络（FFN），每个组件都包裹在层归一化和残差连接中。注意力层负责信息路由——它决定哪些token应该影响其他哪些token。FFN负责信息处理——它通过一个更宽的隐藏层（通常是模型维度的4倍）并结合非线性函数，独立地转换每个token的表示。模型的大部分参数都位于FFN层中，研究显示，事实知识正是存储在这里，而注意力层则学习关系和句法模式。堆叠32到128个这样的模块，你就能得到一个现代的LLM。

三种变体

2017年的原始论文《Attention Is All You Need》描述了一种用于机器翻译的编码器-解码器架构。编码器处理输入序列并生成上下文感知的表示；解码器通过交叉注意力机制，同时关注自己的先前输出和编码器的输出，逐个生成输出序列。但该领域很快分化为三种变体。仅编码器模型（如BERT）以双向方式处理整个输入，非常适合分类和检索。仅解码器模型（GPT、Claude、Llama、Mistral）使用因果掩码，使每个token只能关注先前的token——这正是文本生成所需的功能。编码器-解码器模型（T5、BART）保留了原始架构，在翻译和摘要任务中表现良好。仅解码器变体在扩展性竞赛中胜出，因为其训练更简单，并且天然支持自回归生成。

扩展定律

扩展定律使Transformer从一种架构转变为一个行业。Chinchilla论文（Hoffmann等，2022）表明，模型性能随着计算量、数据量和参数量呈幂律增长。这意味着在训练前就可以预测模型的表现，这使LLM开发变成了一个具有相对可预测投资回报的工程问题。这种可预测性正是数十亿美元GPU集群投入的基础。它还表明，当时大多数模型都训练不足——在固定的计算预算下，用更多数据训练的小模型比用较少数据训练的大模型效果更好。这一洞察彻底重塑了整个行业：Llama、Mistral和Gemma等模型相对于参数数量，都使用了比早期模型多得多的token进行训练。

现代Transformer已与原始论文中的设计大相径庭。预归一化（在注意力/FFN之前而非之后应用层归一化）现在已成为标准，因为它能在大规模训练中稳定训练过程。RMSNorm取代了LayerNorm以提高效率。旋转位置嵌入（RoPE）取代了学习或正弦位置编码，因为它在模型训练长度之外的更长序列上泛化能力更强。SwiGLU激活函数取代了FFN中的ReLU以提升性能。组查询注意力（GQA）通过在查询头之间共享键值头来缩小KV缓存。Flash Attention重构了注意力计算，使其在不改变数学原理的情况下更节省内存。这些改进并未改变Transformer的基本架构，但它们共同代表了数年的工程迭代，使训练和部署大型模型变得实际可行。

扩展瓶颈

Transformer最大的实际限制是注意力机制对序列长度的二次成本。每个token必须关注所有先前的token，因此处理128K token上下文所需的计算量比处理4K token上下文多几个数量级。这推动了长上下文API调用的成本，并且这也是为什么SSMs和混合架构等替代方案正在积极研究的原因。KV缓存——在生成过程中必须保留在内存中的所有先前token的键值对——是另一个主要瓶颈。对于生成长序列的大型模型，KV缓存消耗的GPU内存可能超过模型权重本身。分页注意力（vLLM）、量化KV缓存和推测解码等技术都是对这一根本性架构限制的工程响应。Transformer短期内不会消失，但下一代架构几乎肯定将是混合架构，它们将保留Transformer的优势，同时解决这些扩展限制。

Transformer

为什么重要

深度解析

三种变体

扩展定律

扩展瓶颈

相关概念