Un foundation model commence sa vie comme un réseau de neurones vierge — des milliards de paramètres initialisés à des valeurs aléatoires. Pendant le pré-entraînement, il consomme d'énormes ensembles de données (pages web, livres, dépôts de code, articles scientifiques) et apprend à prédire ce qui vient ensuite. Cet objectif de prédiction du prochain token semble d'une simplicité trompeuse, mais il force le modèle à intérioriser la grammaire, les faits, les schémas de raisonnement, les conventions de code, et même une certaine forme de bon sens. Le résultat est une base polyvalente qui en sait beaucoup sur beaucoup de sujets, sans être conçue pour une seule tâche. GPT-4, Claude, Gemini et Llama ont tous débuté comme des foundation models avant de passer par des étapes supplémentaires d'alignement et d'instruction-tuning.
L'innovation clé derrière les foundation models est le transfer learning à grande échelle. Avant ce paradigme, si vous vouliez une IA capable de classifier des images médicales, vous entraîniez un classificateur d'images médicales à partir de zéro. Si vous en vouliez une qui résume des contrats juridiques, vous entraîniez un modèle séparé sur des données juridiques. Les foundation models ont inversé l'équation : entraîner un seul modèle avec des connaissances générales, puis l'adapter à moindre coût. L'adaptation peut être aussi légère que la rédaction d'un bon prompt (zero-shot), la fourniture de quelques exemples en contexte (few-shot), ou le fine-tuning sur un petit ensemble de données spécifique à la tâche. C'est pourquoi un seul modèle comme Claude peut vous aider à déboguer du Python, rédiger du contenu marketing et analyser un tableur — le tout dans la même conversation.
Le terme « foundation model » a été inventé par des chercheurs du Center for Research on Foundation Models (CRFM) de Stanford en 2021 pour capturer quelque chose d'important : ces modèles sont des fondations au sens architectural du terme. Tout ce qui est construit par-dessus hérite à la fois de leurs forces et de leurs faiblesses. Si les données d'entraînement contiennent des biais, ces biais se propagent dans chaque application en aval. Si le modèle hallucine, chaque produit construit dessus peut halluciner. C'est fondamentalement différent du logiciel traditionnel, où les bogues sont localisés. Avec les foundation models, une seule lacune de capacité ou un seul mode de défaillance peut se répercuter à travers des milliers d'applications construites par des équipes différentes qui n'ont jamais touché au processus d'entraînement.
Entraîner un foundation model coûte incroyablement cher — on parle de dizaines à des centaines de millions de dollars en calcul pour les plus grands modèles, plus l'effort d'ingénierie pour assembler et nettoyer des ensembles de données de milliers de milliards de tokens. Cela crée un écosystème concentré : seule une poignée d'organisations (Anthropic, OpenAI, Google, Meta, Mistral, et quelques autres) peuvent se permettre d'entraîner des foundation models de pointe à partir de zéro. Tous les autres construisent par-dessus. Cette réalité économique façonne toute l'industrie — c'est pourquoi l'accès par API est devenu le modèle de déploiement dominant, et pourquoi les publications open-weight comme Llama et Mistral comptent autant pour la compétition et l'accessibilité.
Une idée reçue courante veut que « foundation model » et « LLM » soient synonymes. Ils se recoupent beaucoup, mais ce ne sont pas la même chose. Un foundation model se définit par son rôle (base générale, de multiples usages en aval), pas par sa modalité. Les foundation models de vision comme DINOv2, les modèles audio comme Whisper, et les modèles multimodaux comme Gemini sont tous des foundation models. Un LLM est un type spécifique — centré sur le langage. La distinction est importante parce que le paradigme du foundation model s'étend bien au-delà du texte, dans le repliement des protéines, la robotique, la prévision météorologique et la découverte de médicaments, tous suivant le même schéma : entraîner gros sur des données larges, puis adapter.