Transformer : Définition et signification — Wiki IA

L'architecture de réseau de neurones derrière pratiquement tous les LLM modernes et de nombreux modèles d'image et d'audio. Introduit par Google dans l'article de 2017 « Attention Is All You Need », le Transformer utilise l'auto-attention pour traiter toutes les parties d'une entrée simultanément plutôt que séquentiellement, permettant un parallélisme massif pendant l'entraînement.

Pourquoi c’est important

Les Transformers sont l'architecture qui a rendu le boom actuel de l'IA possible. GPT, Claude, Gemini, Llama, Mistral — ce sont tous des Transformers sous le capot. Comprendre cette architecture vous aide à comprendre pourquoi les modèles ont les capacités et les limitations qu'ils ont.

En profondeur

Un bloc Transformer comporte deux composants principaux empilés : une couche d'auto-attention multi-têtes et un réseau feedforward (FFN), chacun enveloppé dans une normalisation de couche et une connexion résiduelle. La couche d'attention gère le routage de l'information — elle décide quels tokens doivent influencer quels autres tokens. Le FFN gère le traitement de l'information — il transforme la représentation de chaque token indépendamment à travers une couche cachée plus large (typiquement 4 fois la dimension du modèle) avec une non-linéarité. La majorité des paramètres du modèle résident dans les couches FFN, et la recherche suggère que c'est là que les connaissances factuelles sont stockées, tandis que les couches d'attention apprennent les patterns relationnels et syntaxiques. Empilez 32 à 128 de ces blocs, et vous obtenez un LLM moderne.

Trois variantes

L'article original de 2017 « Attention Is All You Need » décrivait une architecture encodeur-décodeur pour la traduction automatique. L'encodeur traite la séquence d'entrée et produit des représentations contextualisées ; le décodeur génère la séquence de sortie un token à la fois, prêtant attention à la fois à ses propres sorties précédentes et à la sortie de l'encodeur via l'attention croisée. Mais le domaine a rapidement divergé en trois variantes. Les modèles encodeur seul (comme BERT) traitent l'entrée complète de manière bidirectionnelle et excellent en classification et en recherche. Les modèles décodeur seul (GPT, Claude, Llama, Mistral) utilisent un masquage causal de sorte que chaque token ne peut prêter attention qu'aux tokens précédents — c'est ce qu'il faut pour la génération de texte. Les modèles encodeur-décodeur (T5, BART) ont conservé l'architecture originale et fonctionnent bien pour la traduction et le résumé. La variante décodeur seul a gagné la course au passage à l'échelle parce qu'elle est plus simple à entraîner et supporte naturellement la génération autorégressive.

Les lois d'échelle

Les lois d'échelle (scaling laws) sont ce qui a transformé le Transformer d'une architecture en une industrie. L'article Chinchilla (Hoffmann et al., 2022) a montré que la performance des modèles suit une loi de puissance prévisible en fonction du calcul, des données et des paramètres. Cela signifie qu'on peut prévoir la qualité d'un modèle avant de l'entraîner, ce qui a transformé le développement de LLM en un problème d'ingénierie avec des retours sur investissement relativement prévisibles. Cette prévisibilité est ce qui a justifié les milliards de dollars investis dans les grappes de GPU. Cela a aussi montré que la plupart des modèles de l'époque étaient sous-entraînés — à budget de calcul fixe, on obtient de meilleurs résultats avec un modèle plus petit entraîné sur plus de données qu'avec un modèle plus grand entraîné sur moins. Cette découverte a remodelé toute l'industrie : Llama, Mistral et Gemma s'entraînent tous sur beaucoup plus de tokens par rapport à leur nombre de paramètres que les modèles antérieurs.

Les Transformers modernes ont considérablement divergé de l'article original. Le pre-norm (appliquer la normalisation de couche avant l'attention/FFN plutôt qu'après) est maintenant standard parce qu'il stabilise l'entraînement à grande échelle. RMSNorm a remplacé LayerNorm pour l'efficacité. Les Rotary Position Embeddings (RoPE) ont remplacé les encodages positionnels appris ou sinusoïdaux parce qu'ils généralisent mieux aux séquences plus longues que celles sur lesquelles le modèle a été entraîné. L'activation SwiGLU a remplacé ReLU dans le FFN pour de meilleures performances. Le Grouped-Query Attention (GQA) partage les têtes clé-valeur entre les têtes de requête pour réduire le KV cache. Flash Attention a restructuré le calcul d'attention pour être efficace en mémoire sans changer les mathématiques. Aucune de ces modifications ne change l'architecture fondamentale, mais ensemble elles représentent des années d'itération d'ingénierie qui rendent l'entraînement et le service de grands modèles praticables.

Le mur du passage à l'échelle

La plus grande limitation pratique des Transformers est le coût quadratique de l'attention par rapport à la longueur de la séquence. Chaque token doit prêter attention à chaque token précédent, donc traiter un contexte de 128K tokens nécessite des ordres de grandeur de calcul de plus qu'un contexte de 4K. Cela dicte le coût des appels API en contexte long, et c'est la raison pour laquelle des alternatives comme les SSM et les architectures hybrides font l'objet de recherches actives. Le KV cache — les paires clé-valeur stockées de tous les tokens précédents qui doivent rester en mémoire pendant la génération — est l'autre goulot d'étranglement majeur. Pour un grand modèle générant de longues séquences, le KV cache peut consommer plus de mémoire GPU que les poids du modèle eux-mêmes. Des techniques comme la paged attention (vLLM), les KV caches quantifiés et le décodage spéculatif sont autant de réponses d'ingénierie à ce qui est fondamentalement une contrainte architecturale. Le Transformer ne va pas disparaître de sitôt, mais la prochaine génération d'architectures sera presque certainement hybride, conservant ses forces tout en répondant à ces limitations de passage à l'échelle.

Transformer

Pourquoi c’est important

En profondeur

Trois variantes

Les lois d'échelle

Le mur du passage à l'échelle

Concepts connexes