Token : Définition et signification — Wiki IA

Le composant dans chaque couche Transformer qui traite chaque token indépendamment à travers deux transformations linéaires avec une fonction d'activation entre les deux. Tandis que l'attention mélange l'information entre les tokens (quels tokens sont liés à quels autres), le réseau feed-forward traite la représentation de chaque token individuellement, appliquant des transformations non linéaires qui encodent des connaissances et effectuent des calculs.

Pourquoi c'est important

Le réseau feed-forward est l'endroit où la majorité des connaissances d'un Transformer sont stockées. L'attention reçoit toute la gloire, mais les couches FFN contiennent la majorité des paramètres du modèle (typiquement 2/3 des paramètres totaux) et c'est là que résident principalement les associations factuelles, les patterns langagiers et les calculs appris. Comprendre cela aide à expliquer des phénomènes comme l'édition de connaissances et l'élagage de modèles.

En profondeur

Le FFN standard : FFN(x) = W2 · activation(W1 · x + b1) + b2, où W1 projette de la dimension du modèle vers une dimension intermédiaire plus grande (typiquement 4x), la fonction d'activation introduit la non-linéarité, et W2 projette en retour vers la dimension du modèle. Chaque position (token) passe à travers cela indépendamment — le FFN ne voit pas les autres tokens, seule la couche d'attention le fait.

SwiGLU et variantes à portes

Les LLM modernes (LLaMA, Mistral, etc.) utilisent SwiGLU au lieu du FFN standard : SwiGLU(x) = (W1 · x · SiLU) ⊗ (W3 · x). Cela ajoute une troisième matrice de poids (W3) et un mécanisme de porte qui permet au réseau de contrôler quelle information passe. Malgré les paramètres supplémentaires, ça performe mieux à calcul équivalent, donc la dimension intermédiaire est ajustée à la baisse pour compenser. C'est un cas où un composant légèrement plus complexe améliore le système entier.

Stockage des connaissances

La recherche suggère que les couches FFN fonctionnent comme des mémoires clé-valeur : la première couche linéaire (W1) détecte des patterns dans l'entrée (clés), et la seconde couche linéaire (W2) associe ces patterns à des mises à jour de sortie (valeurs). « La tour Eiffel est à » active des neurones spécifiques dans W1, qui via W2 promeuvent le token « Paris ». Cette interprétation clé-valeur explique pourquoi les couches FFN stockent les connaissances factuelles et pourquoi les techniques d'édition de connaissances peuvent modifier des faits spécifiques en mettant à jour des poids FFN spécifiques.

Réseau feed-forward

Pourquoi c'est important

En profondeur

SwiGLU et variantes à portes

Stockage des connaissances

Concepts connexes