Zubnet AI学习Wiki › 编码器
基础

编码器

别名:编码器网络、特征提取器
将输入数据转换为压缩的、信息丰富的表示(编码)的神经网络组件。在Transformer中,编码器使用双向注意力处理完整输入并生成上下文表示。在自编码器中,编码器将输入压缩到潜在瓶颈。在图像生成中,VAE编码器将图像转换到潜在空间。编码器是许多架构中的“理解”部分。

为什么重要

编码器无处不在:BERT是编码器,CLIP有文本编码器和图像编码器,Stable Diffusion有VAE编码器,RAG系统使用编码器模型生成嵌入。理解编码器做什么——将输入压缩为有用的表示——帮助你理解所有这些系统。编码的质量决定了下游一切的质量。

深度解析

在Transformer编码器(BERT,T5的左半部分)中,每个token双向地关注每一个其他token。这意味着“bank”这个词的表示同时融合了左侧上下文“river”和右侧上下文“fishing”的信息。这种双向注意力是编码器表示在理解任务上比解码器(仅从左到右)表示更丰富的原因。

编码器 vs. 解码器

关键区别:编码器处理输入(理解),解码器生成输出(创造)。编码器一次看到所有内容(双向)。解码器只看到过去的token(因果/从左到右)。这就是为什么编码器模型(BERT)更适合分类和搜索,而解码器模型(GPT、Claude)更适合生成。编码器-解码器模型(T5、BART)使用编码器理解输入,使用解码器生成输出,通过交叉注意力连接。

多模态系统中的编码器

多模态系统通常为每种模态使用单独的编码器:视觉编码器(ViT)处理图像,文本编码器(BERT/CLIP)处理文本,可能还有音频编码器处理语音。这些编码器在共享空间中生成嵌入,实现跨模态理解。每个编码器的质量决定了系统对该模态的理解程度。这就是为什么CLIP的训练(对齐图像和文本编码器)如此有影响力——它在视觉和语言理解之间创建了一座桥梁。

← 所有术语