L'objectif dominant du pré-entraînement pour les modèles de langage est la prédiction du prochain token : étant donné une séquence de tokens, prédire ce qui vient ensuite. Le modèle traite des milliards de tokens du corpus d'entraînement, et pour chaque token, il calcule une distribution de probabilité sur l'ensemble du vocabulaire et est pénalisé (via la perte d'entropie croisée) pour avoir attribué une faible probabilité au token réel suivant. Cet objectif d'une simplicité trompeuse s'avère extraordinairement puissant — pour bien prédire le mot suivant dans des contextes divers, le modèle doit implicitement apprendre la grammaire, les faits, les schémas de raisonnement, les conventions de programmation, et bien plus. La perte commence élevée (essentiellement une devinette aléatoire parmi un vocabulaire de 32 000 à 128 000 tokens) et diminue progressivement à mesure que le modèle intériorise la structure statistique du langage. Pour les modèles basés sur les transformers, c'est la recette standard. Les architectures alternatives comme les modèles à espace d'états (Mamba, RWKV) utilisent le même objectif mais remplacent le mécanisme d'attention par des mises à jour d'état récurrentes, atteignant une qualité comparable avec une meilleure mise à l'échelle computationnelle sur les longues séquences.
L'échelle du pré-entraînement moderne est vertigineuse et a doublé environ tous les 6 à 9 mois. GPT-3 (2020) s'est entraîné sur 300 milliards de tokens. LLaMA 2 (2023) en a utilisé 2 billions. LLaMA 3 (2024) en a utilisé plus de 15 billions. La puissance de calcul se mesure en opérations à virgule flottante, et un entraînement de pointe peut nécessiter 10^25 FLOPS — un chiffre qui se traduit par des milliers de GPU fonctionnant pendant des mois et des coûts de dizaines de millions de dollars en électricité et matériel uniquement. L'entraînement est distribué sur les GPU à l'aide de techniques comme le parallélisme de données (chaque GPU traite des lots de données différents), le parallélisme de tenseurs (le calcul de chaque couche est réparti entre les GPU) et le parallélisme de pipeline (différentes couches résident sur différents GPU). Des frameworks comme Megatron-LM, DeepSpeed et FSDP (Fully Sharded Data Parallel de PyTorch) gèrent la complexité de la synchronisation de milliers de GPU, mais les pannes sont fréquentes — erreurs matérielles, problèmes réseau et instabilités numériques font que les grands entraînements nécessitent des points de contrôle robustes et une récupération automatique.
Tous les pré-entraînements ne se valent pas, et les détails de la recette comptent autant que les données et la puissance de calcul. Le calendrier du taux d'apprentissage comporte typiquement une phase de préchauffage (augmentation linéaire du taux sur les quelques premiers milliers d'étapes) suivie d'une décroissance en cosinus vers une valeur proche de zéro. La taille des lots augmente souvent en cours d'entraînement — on commence petit pour des mises à jour de gradient plus fréquentes et plus bruitées, puis on augmente pour un entraînement en fin de parcours plus stable. La longueur de séquence (combien de tokens le modèle voit à la fois) a un impact majeur sur ce que le modèle apprend : des séquences plus longues lui permettent de capturer des dépendances à plus longue portée, mais coûtent quadratiquement plus de mémoire pour les modèles basés sur l'attention. Beaucoup d'équipes utilisent maintenant un entraînement progressif de la longueur de séquence, commençant avec des contextes courts et augmentant jusqu'à la fenêtre de contexte complète plus tard. L'optimiseur est presque universellement AdamW, bien que des approches plus récentes comme SOAP et Muon gagnent du terrain pour leurs propriétés de convergence potentiellement meilleures.
Le pré-entraînement n'est plus une seule phase monolithique. Les pipelines d'entraînement modernes comprennent souvent plusieurs étapes avec des compositions de données différentes. La phase principale de pré-entraînement utilise un corpus large, puis une phase de « mi-entraînement » ou de « pré-entraînement continué » utilise un mélange de données de meilleure qualité ou plus spécifique au domaine, parfois avec des longueurs de contexte plus grandes. C'est ainsi que les modèles apprennent à gérer efficacement les longs documents — s'entraîner sur des séquences de 128K tokens dès le début serait prohibitivement coûteux, mais une courte phase de fine-tuning sur des données de long contexte à la fin fonctionne étonnamment bien. Après le pré-entraînement vient le fine-tuning supervisé (SFT) sur des données d'instructions, puis l'alignement via RLHF ou DPO. Chaque étape s'appuie sur la précédente, et les frontières entre elles sont de plus en plus floues. Ce qui était autrefois un pipeline en trois étapes bien distinctes (pré-entraînement, SFT, RLHF) est maintenant un curriculum multi-étapes avec des compositions de données, des taux d'apprentissage et des objectifs distincts à chaque phase.