由編碼器(壓縮輸入)和解碼器(生成輸出)組成的架構。T5/BART 是編碼器-解碼器架構。GPT/Claude 是純解碼器架構。BERT 是純編碼器架構。
編碼器使用雙向注意力;解碼器使用因果注意力加上交叉注意力。純解碼器因其簡單性和良好的縮放特性而勝出。純編碼器(BERT)在嵌入向量、分類和搜尋方面仍然是主流。