Lorsqu'un réseau de neurones s'entraîne, il ajuste des millions ou des milliards de nombres organisés en matrices de poids et de biais. Chaque poids contrôle l'intensité du signal qui passe d'un neurone à un autre ; chaque biais déplace le seuil d'activation. Ce sont les paramètres. L'entraînement fonctionne par la descente de gradient — le modèle fait une prédiction, mesure à quel point il s'est trompé (la perte), puis ajuste légèrement chaque paramètre dans la direction qui aurait réduit l'erreur. Répétez cela des milliards de fois sur des trillions de tokens, et ces paramètres convergent vers quelque chose capable d'écrire de la poésie, de déboguer du code ou d'expliquer la mécanique quantique. Les paramètres ne constituent pas un tableau de recherche ou une base de données. Ce sont une représentation compressée, distribuée et perte de motifs présents dans les données d'entraînement, et aucun paramètre isolé ne « sait » rien par lui-même.
L'histoire de l'intelligence artificielle moderne peut être racontée en fonction du nombre de paramètres. GPT-2 avait 1,5 milliard de paramètres en 2019 et les gens pensaient qu'il était dangereusement compétent. GPT-3 est arrivé en 2020 avec 175 milliards de paramètres et a changé les règles. Chaque saut d'échelle a déverrouillé des capacités que les modèles plus petits ne pouvaient simplement pas atteindre — l'apprentissage par quelques exemples, l'écriture cohérente de longs textes, la raison de base — et les laboratoires se sont précipités pour entraîner des modèles de plus en plus grands. Ce n'était pas seulement du marketing. Les lois d'échelle publiées par OpenAI et DeepMind ont montré une relation remarquablement lisse entre le nombre de paramètres, les données d'entraînement, le budget de calcul et les performances du modèle. Plus de paramètres, entraînés sur plus de données, avec plus de calcul, signifiaient des résultats prévisiblement meilleurs. La course aux armements était rationnelle, du moins pendant un certain temps.
Tous les paramètres ne sont pas égaux, et tous ne sont pas activés pour chaque entrée. Les modèles Mélange d'Experts (MoE) comme Mixtral et (supposément) GPT-4 contiennent des milliards de paramètres au total, mais un réseau de routage sélectionne uniquement un sous-ensemble de sous-réseaux « experts » pour chaque token. Mixtral 8x7B possède environ 47 milliards de paramètres au total, mais active environ 13 milliards par passage avant — vous offrant ainsi la qualité d'un modèle beaucoup plus grand au coût d'inférence d'un modèle plus petit. En parallèle, la recherche d'échelle Chinchilla de DeepMind en 2022 a complètement renversé l'hypothèse « plus grand est toujours meilleur ». Ils ont montré que la plupart des grands modèles étaient sous-entraînés : un modèle plus petit entraîné sur des données bien plus nombreuses pouvait surpasser un modèle plus grand entraîné sur moins de données. Chinchilla, avec 70 milliards de paramètres entraînés sur 1,4 trillion de tokens, a battu Gopher, qui possédait 280 milliards de paramètres. La leçon était que le nombre de paramètres seul ne dit presque rien sans connaître la quantité de données et de calcul utilisés pour l'entraînement.
Les paramètres ont un coût direct et inévitable en mémoire GPU. Chaque paramètre stocké en fp16 (virgule flottante à 16 bits) ou bf16 prend 2 octets. Un modèle de 7 milliards de paramètres nécessite donc environ 14 Go de VRAM seulement pour stocker les poids — sans compter autre chose. Quantifier en int8 (entiers à 8 bits) réduit cela à 7 Go ; passer à 4 bits vous ramène à environ 3,5 Go. Cela concerne l'inférence. L'entraînement est une toute autre histoire, car vous devez également stocker les gradients (taille identique aux paramètres), les états de l'optimiseur (souvent 2 fois la taille des paramètres pour Adam) et les activations pour la rétropropagation. Une règle de base approximative : l'entraînement d'un modèle en précision mixte nécessite au minimum 4 à 6 octets par paramètre, et peut atteindre 16 à 20 octets par paramètre avec un état complet de l'optimiseur et sans optimisations de mémoire. C'est pourquoi un modèle de 7B qui s'exécute confortablement sur une seule carte GPU de consommateur pour l'inférence nécessite un cluster de GPU de centre de données pour l'entraînement.
L'industrie a largement dépassé la croyance que l'ajout de plus de paramètres est la principale voie vers de meilleurs modèles. Les preuves s'accumulaient de plusieurs côtés : Chinchilla a prouvé que la quantité de données était aussi importante que la taille du modèle, les modèles à poids ouverts comme Llama 3 et Qwen 2.5 ont montré que la curation soigneuse des données et un entraînement prolongé pouvaient rendre des modèles de 70B compétitifs avec des modèles bien plus grands, et les innovations architecturales comme MoE, les modèles d'espace d'états et les mécanismes d'attention améliorés offraient de meilleures performances par paramètre que l'échelle brute. L'avant-garde aujourd'hui porte sur l'efficacité de l'entraînement, la qualité des données et les techniques post-entraînement comme RLHF et la distillation — et non seulement sur l'augmentation du compteur de paramètres. Le nombre de paramètres reste important comme proxy grossier de la capacité, mais il devient de plus en plus la chose la moins intéressante d'un modèle.