Word Embedding: Definição e significado — Wiki de IA

Representações vetoriais densas de palavras onde palavras com significados similares têm vetores similares. Word2Vec (2013) e GloVe (2014) foram pioneiros nisso: treinam em padrões de co-ocorrência de palavras para produzir vetores onde "king − man + woman ≈ queen". Word embeddings foram o precursor dos embeddings contextuais modernos (BERT, sentence-transformers) e permanecem fundamentais para entender como redes neurais representam linguagem.

Por que isso importa

Word embeddings foram o avanço que tornou NLP neural prático. Antes deles, palavras eram representadas como vetores one-hot (sem noção de similaridade). Word embeddings provaram que representações distribuídas podiam capturar significado, analogia e relações semânticas. Essa percepção — representar símbolos discretos como vetores contínuos aprendidos — é a base de todos os modelos de linguagem modernos.

Em profundidade

Word2Vec (Mikolov et al., 2013, Google) treina prevendo uma palavra a partir de seu contexto (CBOW) ou prevendo contexto a partir de uma palavra (Skip-gram). GloVe (Pennington et al., 2014, Stanford) fatoriza a matriz de co-ocorrência de palavras. Ambos produzem resultados similares: vetores de 100–300 dimensões onde similaridade de cosseno correlaciona com similaridade semântica. Esses vetores capturam relações notáveis: países mapeiam para capitais, verbos mapeiam para tempos verbais, e analogias são resolvíveis através de aritmética vetorial.

Estático vs. Contextual

Word2Vec e GloVe produzem um vetor por palavra, independentemente do contexto. "Banco" recebe o mesmo embedding seja significando "banco de rio" ou "banco financeiro". Embeddings contextuais (ELMo, depois BERT) resolveram isso produzindo representações diferentes dependendo do contexto. Embeddings modernos de frases (de modelos como BGE, E5) vão além, incorporando frases inteiras em vetores. Cada geração melhorou a anterior, mas a ideia central — significado como vetor — começou com Word2Vec.

O Legado

A maior contribuição do Word2Vec não foi o algoritmo mas a demonstração de que redes neurais podem aprender representações úteis da linguagem a partir de texto bruto. Essa prova de conceito inspirou a progressão de vetores de palavras para vetores de frases para embeddings contextuais para modelos de linguagem completos. A embedding layer de todo LLM é um descendente direto dos word embeddings: uma tabela de consulta mapeando tokens discretos para vetores contínuos aprendidos, apenas em escala muito maior.

Word Embedding

Por que isso importa

Em profundidade

Estático vs. Contextual

O Legado

Conceitos relacionados