Un bloc Transformer comporte deux composants principaux empilés : une couche d'auto-attention multi-têtes et un réseau feedforward (FFN), chacun enveloppé dans une normalisation de couche et une connexion résiduelle. La couche d'attention gère le routage de l'information — elle décide quels tokens doivent influencer quels autres tokens. Le FFN gère le traitement de l'information — il transforme la représentation de chaque token indépendamment à travers une couche cachée plus large (typiquement 4 fois la dimension du modèle) avec une non-linéarité. La majorité des paramètres du modèle résident dans les couches FFN, et la recherche suggère que c'est là que les connaissances factuelles sont stockées, tandis que les couches d'attention apprennent les patterns relationnels et syntaxiques. Empilez 32 à 128 de ces blocs, et vous obtenez un LLM moderne.
L'article original de 2017 « Attention Is All You Need » décrivait une architecture encodeur-décodeur pour la traduction automatique. L'encodeur traite la séquence d'entrée et produit des représentations contextualisées ; le décodeur génère la séquence de sortie un token à la fois, prêtant attention à la fois à ses propres sorties précédentes et à la sortie de l'encodeur via l'attention croisée. Mais le domaine a rapidement divergé en trois variantes. Les modèles encodeur seul (comme BERT) traitent l'entrée complète de manière bidirectionnelle et excellent en classification et en recherche. Les modèles décodeur seul (GPT, Claude, Llama, Mistral) utilisent un masquage causal de sorte que chaque token ne peut prêter attention qu'aux tokens précédents — c'est ce qu'il faut pour la génération de texte. Les modèles encodeur-décodeur (T5, BART) ont conservé l'architecture originale et fonctionnent bien pour la traduction et le résumé. La variante décodeur seul a gagné la course au passage à l'échelle parce qu'elle est plus simple à entraîner et supporte naturellement la génération autorégressive.
Les lois d'échelle (scaling laws) sont ce qui a transformé le Transformer d'une architecture en une industrie. L'article Chinchilla (Hoffmann et al., 2022) a montré que la performance des modèles suit une loi de puissance prévisible en fonction du calcul, des données et des paramètres. Cela signifie qu'on peut prévoir la qualité d'un modèle avant de l'entraîner, ce qui a transformé le développement de LLM en un problème d'ingénierie avec des retours sur investissement relativement prévisibles. Cette prévisibilité est ce qui a justifié les milliards de dollars investis dans les grappes de GPU. Cela a aussi montré que la plupart des modèles de l'époque étaient sous-entraînés — à budget de calcul fixe, on obtient de meilleurs résultats avec un modèle plus petit entraîné sur plus de données qu'avec un modèle plus grand entraîné sur moins. Cette découverte a remodelé toute l'industrie : Llama, Mistral et Gemma s'entraînent tous sur beaucoup plus de tokens par rapport à leur nombre de paramètres que les modèles antérieurs.
Les Transformers modernes ont considérablement divergé de l'article original. Le pre-norm (appliquer la normalisation de couche avant l'attention/FFN plutôt qu'après) est maintenant standard parce qu'il stabilise l'entraînement à grande échelle. RMSNorm a remplacé LayerNorm pour l'efficacité. Les Rotary Position Embeddings (RoPE) ont remplacé les encodages positionnels appris ou sinusoïdaux parce qu'ils généralisent mieux aux séquences plus longues que celles sur lesquelles le modèle a été entraîné. L'activation SwiGLU a remplacé ReLU dans le FFN pour de meilleures performances. Le Grouped-Query Attention (GQA) partage les têtes clé-valeur entre les têtes de requête pour réduire le KV cache. Flash Attention a restructuré le calcul d'attention pour être efficace en mémoire sans changer les mathématiques. Aucune de ces modifications ne change l'architecture fondamentale, mais ensemble elles représentent des années d'itération d'ingénierie qui rendent l'entraînement et le service de grands modèles praticables.
La plus grande limitation pratique des Transformers est le coût quadratique de l'attention par rapport à la longueur de la séquence. Chaque token doit prêter attention à chaque token précédent, donc traiter un contexte de 128K tokens nécessite des ordres de grandeur de calcul de plus qu'un contexte de 4K. Cela dicte le coût des appels API en contexte long, et c'est la raison pour laquelle des alternatives comme les SSM et les architectures hybrides font l'objet de recherches actives. Le KV cache — les paires clé-valeur stockées de tous les tokens précédents qui doivent rester en mémoire pendant la génération — est l'autre goulot d'étranglement majeur. Pour un grand modèle générant de longues séquences, le KV cache peut consommer plus de mémoire GPU que les poids du modèle eux-mêmes. Des techniques comme la paged attention (vLLM), les KV caches quantifiés et le décodage spéculatif sont autant de réponses d'ingénierie à ce qui est fondamentalement une contrainte architecturale. Le Transformer ne va pas disparaître de sitôt, mais la prochaine génération d'architectures sera presque certainement hybride, conservant ses forces tout en répondant à ces limitations de passage à l'échelle.