Embedding Layer: Definição e significado — Wiki de IA

Uma tabela de consulta que mapeia cada token no vocabulário para um vetor denso (o embedding do token). Quando o modelo recebe o token ID 42, a embedding layer retorna a linha 42 de uma matriz aprendida. Esse vetor é a representação inicial do modelo daquele token — o ponto de partida para todo processamento subsequente através de camadas de atenção e feedforward.

Por que isso importa

A embedding layer é onde texto se torna matemática. Todo LLM começa convertendo tokens discretos (palavras, subpalavras) em vetores contínuos que a rede neural pode processar. A tabela de embedding também é um dos maiores componentes de modelos pequenos — um vocabulário de 128K com embeddings de 4096 dimensões são 512 milhões de parâmetros. Entender isso ajuda a raciocinar sobre tamanhos de modelos e design de vocabulários.

Em profundidade

A embedding layer é apenas uma matriz E de forma (vocab_size, model_dim). Para o token ID i, o embedding é E[i] — uma simples consulta de linha, sem computação. Mas esses embeddings são aprendidos durante o treinamento: tokens que aparecem em contextos similares obtêm embeddings similares. O exemplo clássico: os embeddings para "king" − "man" + "woman" ≈ "queen", mostrando que o espaço de embedding captura relações semânticas.

Embeddings Compartilhados

Muitos modelos compartilham (vinculam) a matriz de embedding com a camada de saída (o "unembedding" ou "cabeça do modelo de linguagem"). A camada de saída converte estados ocultos de volta em probabilidades de vocabulário computando um produto escalar com o embedding de cada token. Vincular essas camadas significa que o mesmo embedding tanto representa um token na entrada quanto o prediz na saída, economizando parâmetros e frequentemente melhorando a qualidade. A maioria dos LLMs modernos usa embeddings compartilhados.

Embeddings Posicionais + Token

A representação completa da entrada é tipicamente: token_embedding + positional_encoding. O token embedding captura o que o token significa. O positional encoding captura onde ele aparece na sequência. Em modelos com embeddings posicionais aprendidos (BERT), essa é uma segunda tabela de embedding indexada pela posição. Em modelos com RoPE (LLaMA), informação posicional é injetada de forma diferente (rotacionando vetores Q e K), e a embedding layer lida apenas com a identidade do token.

Embedding Layer

Por que isso importa

Em profundidade

Embeddings Compartilhados

Embeddings Posicionais + Token

Conceitos relacionados