Zubnet AIApprendreWiki › Plongement de mots
Fondamentaux

Plongement de mots

Aussi appelé : Word2Vec, GloVe, vecteurs de mots
Des représentations vectorielles denses de mots où les mots avec des sens similaires ont des vecteurs similaires. Word2Vec (2013) et GloVe (2014) ont été les pionniers : ils s'entraînent sur les patterns de co-occurrence de mots pour produire des vecteurs où "king − man + woman ≈ queen". Les plongements de mots étaient le précurseur des embeddings contextuels modernes (BERT, sentence-transformers) et restent fondamentaux pour comprendre comment les réseaux de neurones représentent le langage.

Pourquoi c'est important

Les plongements de mots ont été la percée qui a rendu le NLP neuronal pratique. Avant eux, les mots étaient représentés comme des vecteurs one-hot (aucune notion de similarité). Les plongements de mots ont prouvé que des représentations distribuées pouvaient capturer le sens, l'analogie et les relations sémantiques. Cette idée — représenter des symboles discrets comme des vecteurs continus appris — est le fondement de tous les modèles de langage modernes.

En profondeur

Word2Vec (Mikolov et al., 2013, Google) s'entraîne soit en prédisant un mot à partir de son contexte (CBOW) soit en prédisant le contexte à partir d'un mot (Skip-gram). GloVe (Pennington et al., 2014, Stanford) factorise la matrice de co-occurrence des mots. Les deux produisent des résultats similaires : des vecteurs de 100–300 dimensions où la similarité cosinus corrèle avec la similarité sémantique. Ces vecteurs capturent des relations remarquables : les pays correspondent à leurs capitales, les verbes à leurs temps, et les analogies sont résolubles par arithmétique vectorielle.

Statique vs. contextuel

Word2Vec et GloVe produisent un vecteur par mot, quel que soit le contexte. "Banque" obtient le même embedding que ce soit pour "berge de la rivière" ou "compte en banque". Les embeddings contextuels (ELMo, puis BERT) ont résolu cela en produisant des représentations différentes selon le contexte. Les embeddings de phrases modernes (à partir de modèles comme BGE, E5) vont plus loin, embarquant des phrases entières dans des vecteurs. Chaque génération a amélioré la précédente, mais l'idée centrale — le sens comme un vecteur — a commencé avec Word2Vec.

L'héritage

La plus grande contribution de Word2Vec n'était pas l'algorithme mais la démonstration que les réseaux de neurones peuvent apprendre des représentations utiles du langage à partir de texte brut. Cette preuve de concept a inspiré la progression des vecteurs de mots vers les vecteurs de phrases, puis les embeddings contextuels, puis les modèles de langage complets. La couche d'embedding de chaque LLM est un descendant direct des plongements de mots : une table de correspondance qui associe des tokens discrets à des vecteurs continus appris, juste à une échelle bien plus grande.

Concepts connexes

← Tous les termes
← Planning du taux d'apprentissage Poids →