Encoder-Decoder: Definição e significado — Wiki de IA

Arquitetura com encoder (comprime a entrada) e decoder (gera a saída). T5/BART são encoder-decoder. GPT/Claude são decoder-only. BERT é encoder-only.

Por que isso importa

Explica por que diferentes modelos se destacam em diferentes tarefas e por que decoder-only venceu para LLMs.

Em profundidade

O encoder usa atenção bidirecional; o decoder usa atenção causal + atenção cruzada. Decoder-only venceu pela simplicidade e escalabilidade. Encoder-only (BERT) ainda é dominante para embeddings, classificação e busca.

As Três Arquiteturas

Encoder-only (BERT): vê toda a entrada de uma vez, ideal para entender texto — classificação, NER, busca semântica. Decoder-only (GPT, Claude, Llama): gera token por token, domina geração de texto. Encoder-decoder (T5, BART): encoder processa entrada, decoder gera saída condicionada — natural para tradução e sumarização.

Por Que Decoder-Only Venceu

Decoder-only é mais simples de escalar: um único stack de camadas, sem atenção cruzada, e o pré-treinamento é direto (prever próximo token). Essa simplicidade permitiu escalar para centenas de bilhões de parâmetros com menos complexidade de engenharia. Na prática, decoder-only faz tudo razoavelmente bem, mesmo tarefas onde encoder-decoder teoricamente seria melhor.

Encoder-Decoder

Por que isso importa

Em profundidade

As Três Arquiteturas

Por Que Decoder-Only Venceu

Conceitos relacionados