一种包含编码器(压缩输入)和解码器(生成输出)的模型架构。T5/BART是编码器-解码器模型。GPT/Claude/Llama是纯解码器模型。BERT是纯编码器模型。
解释了为什么不同的模型擅长不同的任务,以及为什么纯解码器架构在LLM领域胜出。
编码器使用双向注意力;解码器使用因果注意力加交叉注意力。纯解码器因其简洁性和可扩展性而胜出。纯编码器(BERT)在嵌入、分类和搜索任务中仍然占主导地位。