编码器：定义与含义 — AI 维基

将输入数据转换为压缩的、信息丰富的表示（编码）的神经网络组件。在Transformer中，编码器使用双向注意力处理完整输入并生成上下文表示。在自编码器中，编码器将输入压缩到潜在瓶颈。在图像生成中，VAE编码器将图像转换到潜在空间。编码器是许多架构中的“理解”部分。

为什么重要

编码器无处不在：BERT是编码器，CLIP有文本编码器和图像编码器，Stable Diffusion有VAE编码器，RAG系统使用编码器模型生成嵌入。理解编码器做什么——将输入压缩为有用的表示——帮助你理解所有这些系统。编码的质量决定了下游一切的质量。

深度解析

在Transformer编码器（BERT，T5的左半部分）中，每个token双向地关注每一个其他token。这意味着“bank”这个词的表示同时融合了左侧上下文“river”和右侧上下文“fishing”的信息。这种双向注意力是编码器表示在理解任务上比解码器（仅从左到右）表示更丰富的原因。

编码器 vs. 解码器

关键区别：编码器处理输入（理解），解码器生成输出（创造）。编码器一次看到所有内容（双向）。解码器只看到过去的token（因果/从左到右）。这就是为什么编码器模型（BERT）更适合分类和搜索，而解码器模型（GPT、Claude）更适合生成。编码器-解码器模型（T5、BART）使用编码器理解输入，使用解码器生成输出，通过交叉注意力连接。

多模态系统中的编码器

多模态系统通常为每种模态使用单独的编码器：视觉编码器（ViT）处理图像，文本编码器（BERT/CLIP）处理文本，可能还有音频编码器处理语音。这些编码器在共享空间中生成嵌入，实现跨模态理解。每个编码器的质量决定了系统对该模态的理解程度。这就是为什么CLIP的训练（对齐图像和文本编码器）如此有影响力——它在视觉和语言理解之间创建了一座桥梁。