Couche d'embedding : Définition et signification — Wiki IA

Une table de correspondance qui associe chaque token du vocabulaire à un vecteur dense (l'embedding du token). Quand le modèle reçoit le token ID 42, la couche d'embedding retourne la ligne 42 d'une matrice apprise. Ce vecteur est la représentation initiale du modèle pour ce token — le point de départ de tout le traitement ultérieur à travers les couches d'attention et feedforward.

Pourquoi c'est important

La couche d'embedding est l'endroit où le texte devient des maths. Chaque LLM commence par convertir des tokens discrets (mots, sous-mots) en vecteurs continus que le réseau de neurones peut traiter. La table d'embedding est aussi l'un des plus gros composants des petits modèles — un vocabulaire de 128K avec des embeddings de 4096 dimensions, c'est 512 millions de paramètres. Comprendre cela t'aide à raisonner sur les tailles de modèles et la conception du vocabulaire.

En profondeur

La couche d'embedding est juste une matrice E de forme (vocab_size, model_dim). Pour le token ID i, l'embedding est E[i] — une simple consultation de ligne, pas de calcul. Mais ces embeddings sont appris pendant l'entraînement : les tokens qui apparaissent dans des contextes similaires obtiennent des embeddings similaires. L'exemple classique : les embeddings pour "king" − "man" + "woman" ≈ "queen", montrant que l'espace d'embedding capture les relations sémantiques.

Embeddings partagés

Beaucoup de modèles partagent (lient) la matrice d'embedding avec la couche de sortie (le "unembedding" ou "language model head"). La couche de sortie convertit les états cachés en probabilités de vocabulaire en calculant un produit scalaire avec l'embedding de chaque token. Lier ces couches signifie que le même embedding représente un token en entrée et le prédit en sortie, économisant des paramètres et améliorant souvent la qualité. La plupart des LLM modernes utilisent des embeddings liés.

Embeddings positionnels + de tokens

La représentation complète de l'entrée est typiquement : token_embedding + positional_encoding. L'embedding du token capture ce que le token signifie. L'encodage positionnel capture où il apparaît dans la séquence. Dans les modèles avec des embeddings de position appris (BERT), c'est une seconde table d'embedding indexée par position. Dans les modèles avec RoPE (LLaMA), l'information positionnelle est injectée différemment (en tournant les vecteurs Q et K), et la couche d'embedding ne gère que l'identité du token.

Couche d'embedding

Pourquoi c'est important

En profondeur

Embeddings partagés

Embeddings positionnels + de tokens

Concepts connexes