Em um Transformer encoder (BERT, a metade esquerda do T5), cada token atende a todo outro token bidirecionalmente. Isso significa que a representação da palavra "banco" incorpora informação tanto de "rio" (contexto esquerdo) quanto de "pesca" (contexto direito) simultaneamente. Essa atenção bidirecional é por que representações de encoder são mais ricas que representações de decoder (apenas esquerda-para-direita) para tarefas de compreensão.
A distinção chave: encoders processam entrada (compreensão), decoders geram saída (criação). Encoders veem tudo de uma vez (bidirecional). Decoders veem apenas tokens passados (causal/esquerda-para-direita). É por isso que modelos encoder (BERT) são melhores para classificação e busca, enquanto modelos decoder (GPT, Claude) são melhores para geração. Modelos encoder-decoder (T5, BART) usam um encoder para compreensão de entrada e um decoder para geração de saída, conectados por cross-attention.
Sistemas multimodais tipicamente usam encoders separados para cada modalidade: um vision encoder (ViT) para imagens, um text encoder (BERT/CLIP) para texto e potencialmente encoders de áudio para fala. Estes produzem embeddings em um espaço compartilhado, possibilitando compreensão cross-modal. A qualidade de cada encoder determina quão bem o sistema entende aquela modalidade. É por isso que o treinamento do CLIP (alinhar encoders de imagem e texto) foi tão impactante — criou uma ponte entre compreensão de visão e linguagem.