Word2Vec (Mikolov et al., 2013, Google) s'entraîne soit en prédisant un mot à partir de son contexte (CBOW) soit en prédisant le contexte à partir d'un mot (Skip-gram). GloVe (Pennington et al., 2014, Stanford) factorise la matrice de co-occurrence des mots. Les deux produisent des résultats similaires : des vecteurs de 100–300 dimensions où la similarité cosinus corrèle avec la similarité sémantique. Ces vecteurs capturent des relations remarquables : les pays correspondent à leurs capitales, les verbes à leurs temps, et les analogies sont résolubles par arithmétique vectorielle.
Word2Vec et GloVe produisent un vecteur par mot, quel que soit le contexte. "Banque" obtient le même embedding que ce soit pour "berge de la rivière" ou "compte en banque". Les embeddings contextuels (ELMo, puis BERT) ont résolu cela en produisant des représentations différentes selon le contexte. Les embeddings de phrases modernes (à partir de modèles comme BGE, E5) vont plus loin, embarquant des phrases entières dans des vecteurs. Chaque génération a amélioré la précédente, mais l'idée centrale — le sens comme un vecteur — a commencé avec Word2Vec.
La plus grande contribution de Word2Vec n'était pas l'algorithme mais la démonstration que les réseaux de neurones peuvent apprendre des représentations utiles du langage à partir de texte brut. Cette preuve de concept a inspiré la progression des vecteurs de mots vers les vecteurs de phrases, puis les embeddings contextuels, puis les modèles de langage complets. La couche d'embedding de chaque LLM est un descendant direct des plongements de mots : une table de correspondance qui associe des tokens discrets à des vecteurs continus appris, juste à une échelle bien plus grande.