Transformer: Definição e significado — Wiki de IA

A arquitetura de rede neural por trás de virtualmente todos os LLMs modernos e muitos modelos de imagem/áudio. Introduzido pelo Google no artigo de 2017 "Attention Is All You Need", Transformers usam self-attention para processar todas as partes de uma entrada simultaneamente em vez de sequencialmente, permitindo paralelismo massivo durante o treinamento.

Por que isso importa

Transformers são a arquitetura que tornou o atual boom de IA possível. GPT, Claude, Gemini, Llama, Mistral — são todos Transformers por baixo do capô. Entender essa arquitetura ajuda a compreender por que modelos têm as capacidades e limitações que têm.

Em profundidade

Um bloco Transformer tem dois componentes principais empilhados: uma camada de self-attention multi-head e uma rede feedforward (FFN), cada uma envolvida em layer normalization e uma conexão residual. A camada de atenção lida com roteamento de informação — decide quais tokens devem influenciar quais outros tokens. A FFN lida com processamento de informação — transforma a representação de cada token independentemente através de uma camada oculta mais larga (tipicamente 4x a dimensão do modelo) com uma não-linearidade. A maioria dos parâmetros do modelo vive nas camadas FFN, e pesquisa sugere que é onde conhecimento factual é armazenado, enquanto as camadas de atenção aprendem padrões relacionais e sintáticos. Empilhe 32 a 128 desses blocos e você tem um LLM moderno.

Três Variantes

O artigo original de 2017 "Attention Is All You Need" descreveu uma arquitetura encoder-decoder para tradução automática. O campo rapidamente divergiu em três variantes. Modelos só encoder (como BERT) processam a entrada completa bidirecionalmente e são ótimos para classificação e recuperação. Modelos só decoder (GPT, Claude, Llama, Mistral) usam mascaramento causal para que cada token só possa atender a tokens anteriores — é o que você quer para geração de texto. Modelos encoder-decoder (T5, BART) mantiveram a arquitetura original e funcionam bem para tradução e sumarização. A variante só decoder venceu a corrida de escalonamento porque é mais simples de treinar e naturalmente suporta geração autorregressiva.

As Leis de Escalonamento

Leis de escalonamento são o que transformaram o Transformer de uma arquitetura em uma indústria. O artigo Chinchilla (Hoffmann et al., 2022) mostrou que a performance do modelo escala previsivelmente como uma lei de potência de computação, dados e parâmetros. Isso significa que você pode prever quão bom um modelo será antes de treiná-lo, o que transformou o desenvolvimento de LLMs em um problema de engenharia com retornos relativamente previsíveis sobre investimento. Essa previsibilidade é o que justificou os bilhões de dólares em clusters de GPU.

Transformers modernos divergiram significativamente do artigo original. Pre-norm (aplicar layer normalization antes de atenção/FFN em vez de depois) é agora padrão porque estabiliza treinamento em escala. RMSNorm substituiu LayerNorm por eficiência. Rotary Position Embeddings (RoPE) substituíram codificações posicionais aprendidas ou senoidais porque generalizam melhor para sequências mais longas. SwiGLU substituiu ReLU na FFN para melhor performance. Grouped-Query Attention (GQA) compartilha heads key-value entre heads de query para reduzir o KV cache. Flash Attention reestruturou a computação de atenção para ser eficiente em memória sem mudar a matemática. Nenhuma dessas muda a arquitetura fundamental, mas juntas representam anos de iteração de engenharia que tornam treinar e servir modelos grandes algo prático.

O Muro de Escalonamento

A maior limitação prática dos Transformers é o custo quadrático da atenção em relação ao comprimento da sequência. Cada token deve atender a cada token anterior, então processar um contexto de 128K tokens requer ordens de magnitude mais computação que um contexto de 4K. O KV cache — os pares key-value armazenados de todos os tokens anteriores que devem ser mantidos na memória durante a geração — é o outro grande gargalo. Para um modelo grande gerando sequências longas, o KV cache pode consumir mais memória de GPU que os próprios pesos do modelo. Técnicas como paged attention (vLLM), KV caches quantizados e speculative decoding são todas respostas de engenharia ao que é fundamentalmente uma restrição arquitetônica. O Transformer não vai embora tão cedo, mas a próxima geração de arquiteturas quase certamente será híbrida, mantendo suas forças enquanto aborda essas limitações de escalonamento.

Transformer

Por que isso importa

Em profundidade

Três Variantes

As Leis de Escalonamento

O Muro de Escalonamento

Conceitos relacionados