Hyperparamètres : Définition et signification — Wiki IA

Les hyperparamètres que vous choisissez avant le début de l'entraînement, qui contrôlent la manière dont le modèle apprend — contrairement aux paramètres, que le modèle apprend par lui-même. Les hyperparamètres comprennent le taux d'apprentissage (la taille de chaque étape de mise à jour), la taille du lot (le nombre d'exemples traités à la fois), le nombre d'époques (le nombre de fois où les données sont parcourues), le choix de l'optimiseur (Adam, SGD, AdamW), la décroissance du poids, le taux de dropout et les décisions relatives à l'architecture, comme le nombre de couches et les dimensions cachées. Régler correctement les hyperparamètres est souvent la différence entre un modèle qui converge de manière optimale et un autre qui diverge vers des résultats incohérents.

Pourquoi c’est important

L'ajustement des hyperparamètres est l'endroit où l'ingénierie ML devient à la fois science et artisanat. Vous pouvez avoir le jeu de données parfait et l'architecture idéale, mais un taux d'apprentissage trop élevé risque de faire échouer l'entraînement, tandis qu'un taux trop faible ne convergera jamais. Comprendre les hyperparamètres est essentiel pour toute personne entraînant ou effectuant un fine-tuning de modèles — et savoir lesquels sont les plus importants économise d'énormes quantités de ressources de calcul.

En profondeur

Trois hyperparamètres dominent chaque itération d'entraînement, et comprendre comment ils interagissent est plus important que de mémoriser les valeurs par défaut. Le taux d'apprentissage détermine à quel point les poids du modèle changent à chaque étape de mise à jour — trop élevé et la perte explose, trop bas et vous gaspillez des ressources de calcul en avançant lentement vers un minimum que vous ne pourrez jamais atteindre. Les valeurs typiques pour le pré-entraînement d'un grand modèle de langage se situent entre 1e-4 et 6e-4, bien que cet intervalle varie selon la taille du modèle et l'optimiseur. La taille du lot détermine combien d'exemples le modèle voit avant de mettre à jour ses poids. Des lots plus grands donnent des estimations de gradient plus stables, mais coûtent plus de mémoire et peuvent parfois nuire à la généralisation. L'optimiseur — presque toujours une variante d'Adam (AdamW étant l'actuel standard) — décide comment utiliser les informations du gradient pour déplacer effectivement les poids. AdamW ajoute une dégradation de poids découplée, qui agit comme un régulariseur et empêche les poids de croître de manière non bornée. Ces trois éléments sont profondément liés : doubler la taille du lot signifie souvent que vous pouvez augmenter le taux d'apprentissage (la règle de mise à l'échelle linéaire), et changer d'optimiseur peut modifier les taux d'apprentissage stables. Vous ne pouvez pas ajuster l'un en isolation et espérer obtenir des résultats nets.

Plans de dégradation du taux d'apprentissage

Un taux d'apprentissage constant n'est presque jamais le bon choix, et c'est l'une de ces choses qui semble être une sagesse conventionnelle mais qui repose sur des preuves empiriques solides. La plupart des itérations d'entraînement réussies utilisent une phase de réchauffage suivie d'une forme de dégradation. La phase de réchauffage commence par un taux d'apprentissage proche de zéro et l'augmente progressivement sur les premières centaines à quelques milliers d'étapes — cela évite au modèle initialisé aléatoirement de prendre des pas de gradient dévastateurs avant d'avoir appris toute structure utile. Après la phase de réchauffage, la dégradation en cosinus est le plan le plus populaire : le taux d'apprentissage suit une courbe de cosinus réduite depuis son pic jusqu'à presque zéro sur les étapes restantes de l'entraînement. Cela donne au modèle une période longue à un taux d'apprentissage productif, suivie d'un refroidissement progressif qui l'aide à s'installer dans un minimum optimal. La dégradation linéaire fonctionne également, mais le cosinus est devenu le standard par défaut car il se révèle systématiquement aussi bon ou meilleur sur différentes architectures. Certains travaux récents explorent des plans cycliques et des schémas de réchauffage-stabilisation-dégradation, mais si vous démarrez un nouveau projet et que vous souhaitez quelque chose de fiable, la dégradation en cosinus avec réchauffage est le choix sûr.

Pré-entraînement vs. ajustement fin

Les hyperparamètres importants changent radicalement selon que vous effectuez un pré-entraînement à partir de zéro ou un ajustement fin d'un modèle existant. Le pré-entraînement est une affaire de force brute — vous vous souciez du taux d'apprentissage, de la taille du lot, de l'optimiseur et de la dégradation de poids parce que vous construisez des représentations à partir de rien. L'ajustement fin, c'est de la chirurgie sur un cerveau déjà entraîné, et les règles changent en conséquence. Les taux d'apprentissage chutent d'un ordre de grandeur ou plus : là où le pré-entraînement pourrait utiliser 3e-4, l'ajustement fin utilise typiquement 1e-5 à 5e-5, parce que vous voulez pousser le modèle, pas écraser ce qu'il sait déjà. Le nombre d'époques compte beaucoup plus en ajustement fin — un à trois passages sur les données suffit souvent, et aller plus loin risque un surajustement catastrophique sur un petit jeu de données. Avec les méthodes paramétriquement efficaces comme LoRA, un nouvel hyperparamètre entre en jeu : le rang, qui contrôle la capacité de l'adaptateur. Un rang de 8 à 64 couvre la plupart des cas d'usage, des rangs plus élevés ajoutant de l'expressivité au coût de plus de paramètres entraînables. LoRA introduit aussi son propre facteur d'échelle alpha, et le rapport alpha sur rang contrôle effectivement le taux d'apprentissage de l'adaptateur. Le résultat, c'est que l'ajustement fin a moins d'hyperparamètres à régler, mais chacun est plus sensible parce que vous opérez sur un modèle qui a déjà des préalables forts.

Stratégies de recherche

La recherche par grille — essayer chaque combinaison de valeurs sur une grille prédéfinie — c'est la stratégie que tout le monde apprend en premier et que presque personne n'utilise à grande échelle. Le problème est combinatoire : cinq hyperparamètres avec cinq valeurs chacun font 3 125 itérations, et la plupart de ces itérations explorent des régions ennuyeuses et redondantes de l'espace. La recherche aléatoire, proposée par Bergstra et Bengio en 2012, est embarrassamment simple et surpasse systématiquement la recherche par grille : il suffit d'échantillonner des valeurs d'hyperparamètres à partir de distributions raisonnables et de faire tourner un budget fixe d'expériences. Ça fonctionne parce que tous les hyperparamètres n'ont pas la même importance, et l'échantillonnage aléatoire est bien plus susceptible de tomber sur les bonnes valeurs de ceux qui comptent. Au-delà de la recherche aléatoire, l'optimisation bayésienne (avec des outils comme Optuna ou les Sweeps de Weights & Biases) construit un modèle de la manière dont les hyperparamètres se traduisent en performance et utilise ce modèle pour suggérer des configurations de plus en plus prometteuses. L'entraînement basé sur la population prend une approche complètement différente — il fait tourner de nombreuses itérations en parallèle, copie périodiquement les poids des plus performantes, et mute leurs hyperparamètres, faisant effectivement évoluer une bonne configuration pendant l'entraînement plutôt qu'avant. Chaque stratégie fait un compromis entre coût de calcul et efficacité d'exploration, mais la réponse honnête, c'est que la recherche aléatoire avec un budget raisonnable vous emmène à 90 % du chemin.

Le secret du praticien

Voici la partie qui se retrouve rarement dans les manuels : la plupart des hyperparamètres dans les systèmes en production ne sont pas dérivés de premiers principes ni trouvés par recherche rigoureuse. Ils sont copiés d'articles qui ont fonctionné sur des problèmes similaires. Quand quelqu'un pré-entraîne un modèle de 7 milliards de paramètres, il regarde quel taux d'apprentissage LLaMA a utilisé, quelle taille de lot Chinchilla a recommandée, quelle dégradation de poids GPT-3 a rapportée — et il commence là. Ce n'est pas de la paresse ; c'est rationnel. Le paysage des hyperparamètres pour les grands modèles est vaste, chaque expérience coûte des milliers de dollars en calcul, et les configurations publiées représentent des centaines de milliers de dollars de recherche implicite déjà effectuée par des labos bien financés. L'art de l'ajustement des hyperparamètres, en pratique, c'est de savoir de quel article partir, quels un ou deux boutons valent la peine d'être ajustés pour votre situation spécifique, et quand quelque chose va assez mal pour que vous deviez vraiment chercher plutôt qu'ajuster. Les premiers principes comptent pour comprendre pourquoi un choix fonctionne, mais copier des prédécesseurs qui ont réussi, c'est la manière dont la plupart des vraies itérations d'entraînement décollent.

Hyperparamètres