Encoder: Definição e significado — Wiki de IA

Um componente de rede neural que converte dados de entrada em uma representação comprimida e rica em informação (encoding). Em Transformers, o encoder usa atenção bidirecional para processar a entrada completa e produzir representações contextuais. Em autoencoders, o encoder comprime a entrada em um gargalo latente. Em geração de imagens, o encoder VAE converte imagens em espaço latente. Encoders são a metade de "compreensão" de muitas arquiteturas.

Por que isso importa

Encoders estão em todo lugar: BERT é um encoder, CLIP tem um text encoder e um image encoder, Stable Diffusion tem um encoder VAE, sistemas RAG usam modelos encoder para embeddings. Entender o que um encoder faz — comprime entrada em uma representação útil — ajuda a entender todos esses sistemas. A qualidade do encoding determina a qualidade de tudo que vem depois.

Em profundidade

Em um Transformer encoder (BERT, a metade esquerda do T5), cada token atende a todo outro token bidirecionalmente. Isso significa que a representação da palavra "banco" incorpora informação tanto de "rio" (contexto esquerdo) quanto de "pesca" (contexto direito) simultaneamente. Essa atenção bidirecional é por que representações de encoder são mais ricas que representações de decoder (apenas esquerda-para-direita) para tarefas de compreensão.

Encoder vs. Decoder

A distinção chave: encoders processam entrada (compreensão), decoders geram saída (criação). Encoders veem tudo de uma vez (bidirecional). Decoders veem apenas tokens passados (causal/esquerda-para-direita). É por isso que modelos encoder (BERT) são melhores para classificação e busca, enquanto modelos decoder (GPT, Claude) são melhores para geração. Modelos encoder-decoder (T5, BART) usam um encoder para compreensão de entrada e um decoder para geração de saída, conectados por cross-attention.

Encoders em Sistemas Multimodais

Sistemas multimodais tipicamente usam encoders separados para cada modalidade: um vision encoder (ViT) para imagens, um text encoder (BERT/CLIP) para texto e potencialmente encoders de áudio para fala. Estes produzem embeddings em um espaço compartilhado, possibilitando compreensão cross-modal. A qualidade de cada encoder determina quão bem o sistema entende aquela modalidade. É por isso que o treinamento do CLIP (alinhar encoders de imagem e texto) foi tão impactante — criou uma ponte entre compreensão de visão e linguagem.