Word Embedding: Definition & Meaning — AI Wiki

Des représentations vectorielles denses de mots où les mots avec des sens similaires ont des vecteurs similaires. Word2Vec (2013) et GloVe (2014) ont pionné ça : ils s'entraînent sur des patterns de co-occurrence pour produire des vecteurs où « roi − homme + femme ≈ reine ». Les word embeddings ont été les précurseurs des embeddings contextuels modernes (BERT, sentence-transformers) et restent fondamentaux pour comprendre comment les réseaux de neurones représentent le langage.

Pourquoi c'est important

Les word embeddings ont été la percée qui a rendu le NLP neuronal pratique. Avant eux, les mots étaient représentés comme des vecteurs one-hot (pas de notion de similarité). Les word embeddings ont prouvé que les représentations distribuées pouvaient capturer le sens, l'analogie et les relations sémantiques. Cette intuition — représenter des symboles discrets comme des vecteurs continus appris — est le fondement de tous les modèles de langage modernes.

Deep Dive

Word2Vec (Mikolov et al., 2013, Google) trains by either predicting a word from its context (CBOW) or predicting context from a word (Skip-gram). GloVe (Pennington et al., 2014, Stanford) factorizes the word co-occurrence matrix. Both produce similar results: 100–300 dimensional vectors where cosine similarity correlates with semantic similarity. These vectors capture remarkable relationships: countries map to capitals, verbs map to tenses, and analogies are solvable through vector arithmetic.

Static vs. Contextual

Word2Vec and GloVe produce one vector per word, regardless of context. "Bank" gets the same embedding whether it means "river bank" or "financial bank." Contextual embeddings (ELMo, then BERT) solved this by producing different representations depending on context. Modern sentence embeddings (from models like BGE, E5) go further, embedding entire sentences into vectors. Each generation improved on the last, but the core idea — meaning as a vector — started with Word2Vec.

The Legacy

Word2Vec's biggest contribution wasn't the algorithm but the demonstration that neural networks can learn useful representations of language from raw text. This proof of concept inspired the progression from word vectors to sentence vectors to contextual embeddings to full language models. The embedding layer of every LLM is a direct descendant of word embeddings: a lookup table mapping discrete tokens to learned continuous vectors, just at a much larger scale.

Word Embedding

Pourquoi c'est important

Deep Dive

Static vs. Contextual

The Legacy

Concepts liés