Decoder: Definição e significado — Wiki de IA

Um componente de rede neural que gera saída a partir de uma representação. Em Transformers, o decoder usa atenção causal (esquerda-para-direita) para gerar tokens um de cada vez. Em geração de imagens, o decoder VAE converte representações latentes de volta em imagens. Em autoencoders, o decoder reconstrói a entrada original a partir do gargalo comprimido. Decoders são a metade de "geração" de muitas arquiteturas.

Por que isso importa

Todo sistema de IA generativa tem um decoder em seu núcleo. GPT, Claude e Llama são Transformers decoder-only. Stable Diffusion usa um decoder VAE para produzir imagens. Entender decoders explica por que a geração é sequencial (cada token depende de tokens anteriores), por que a saída é mais lenta que o processamento de entrada e por que o paradigma autorregressivo domina a geração de texto.

Em profundidade

Em um Transformer decoder, mascaramento causal garante que cada token só pode atender a tokens anteriores (incluindo a si mesmo). Isso é imposto definindo posições futuras como −∞ nos scores de atenção antes do softmax. O resultado: a representação do token 5 só depende dos tokens 1–5. Essa restrição é o que possibilita a geração autorregressiva — você pode gerar o token 6 usando apenas as representações dos tokens 1–5, que já estão computados.

LLMs Decoder-Only

LLMs modernos (GPT, Claude, Llama) são decoder-only: não há encoder separado, e o modelo inteiro usa atenção causal. O prompt de entrada é processado pelas mesmas camadas de decoder que a saída gerada. Essa simplicidade é por que decoder-only venceu: uma arquitetura, um padrão de atenção, escalonamento limpo. O modelo trata tudo como geração — até "entender" a entrada é formulado como prever o que vem a seguir.

Decoder VAE em Geração de Imagens

Em Stable Diffusion, o processo de difusão opera em um espaço latente comprimido (64×64 em vez de 512×512). O decoder VAE converte essa representação latente de volta em uma imagem de resolução completa. É uma rede neural separada que é treinada para reconstruir imagens a partir de latentes. A qualidade do decoder VAE afeta diretamente a qualidade da imagem final — um bom decoder adiciona detalhes finos e texturas que a representação latente não consegue capturar em sua resolução mais baixa.