在Transformer编码器(BERT,T5的左半部分)中,每个token双向地关注每一个其他token。这意味着“bank”这个词的表示同时融合了左侧上下文“river”和右侧上下文“fishing”的信息。这种双向注意力是编码器表示在理解任务上比解码器(仅从左到右)表示更丰富的原因。
关键区别:编码器处理输入(理解),解码器生成输出(创造)。编码器一次看到所有内容(双向)。解码器只看到过去的token(因果/从左到右)。这就是为什么编码器模型(BERT)更适合分类和搜索,而解码器模型(GPT、Claude)更适合生成。编码器-解码器模型(T5、BART)使用编码器理解输入,使用解码器生成输出,通过交叉注意力连接。
多模态系统通常为每种模态使用单独的编码器:视觉编码器(ViT)处理图像,文本编码器(BERT/CLIP)处理文本,可能还有音频编码器处理语音。这些编码器在共享空间中生成嵌入,实现跨模态理解。每个编码器的质量决定了系统对该模态的理解程度。这就是为什么CLIP的训练(对齐图像和文本编码器)如此有影响力——它在视觉和语言理解之间创建了一座桥梁。