Word2Vec (Mikolov et al., 2013, Google) treina prevendo uma palavra a partir de seu contexto (CBOW) ou prevendo contexto a partir de uma palavra (Skip-gram). GloVe (Pennington et al., 2014, Stanford) fatoriza a matriz de co-ocorrência de palavras. Ambos produzem resultados similares: vetores de 100–300 dimensões onde similaridade de cosseno correlaciona com similaridade semântica. Esses vetores capturam relações notáveis: países mapeiam para capitais, verbos mapeiam para tempos verbais, e analogias são resolvíveis através de aritmética vetorial.
Word2Vec e GloVe produzem um vetor por palavra, independentemente do contexto. "Banco" recebe o mesmo embedding seja significando "banco de rio" ou "banco financeiro". Embeddings contextuais (ELMo, depois BERT) resolveram isso produzindo representações diferentes dependendo do contexto. Embeddings modernos de frases (de modelos como BGE, E5) vão além, incorporando frases inteiras em vetores. Cada geração melhorou a anterior, mas a ideia central — significado como vetor — começou com Word2Vec.
A maior contribuição do Word2Vec não foi o algoritmo mas a demonstração de que redes neurais podem aprender representações úteis da linguagem a partir de texto bruto. Essa prova de conceito inspirou a progressão de vetores de palavras para vetores de frases para embeddings contextuais para modelos de linguagem completos. A embedding layer de todo LLM é um descendente direto dos word embeddings: uma tabela de consulta mapeando tokens discretos para vetores contínuos aprendidos, apenas em escala muito maior.