Ajustement d'hyperparamètres : Définition et signification — Wiki IA

Rechercher systématiquement les meilleurs hyperparamètres — les choix de configuration qui ne sont pas appris pendant l'entraînement mais doivent être fixés avant qu'il ne commence. Le taux d'apprentissage, la taille de lot, le nombre de couches, le taux de dropout et le rang LoRA sont tous des hyperparamètres. Les méthodes d'ajustement incluent la recherche en grille (essayer toutes les combinaisons), la recherche aléatoire (essayer des combinaisons aléatoires) et l'optimisation bayésienne (utiliser les résultats passés pour guider la recherche).

Pourquoi c'est important

La différence entre un bon et un mauvais ensemble d'hyperparamètres peut être énorme — un mauvais taux d'apprentissage peut faire diverger l'entraînement ou converger vers une solution médiocre. L'ajustement d'hyperparamètres est la façon de tirer le meilleur de ton architecture de modèle et de tes données. Pour le fine-tuning de LLM, le taux d'apprentissage et le nombre d'époques sont typiquement les hyperparamètres les plus impactants à ajuster.

En profondeur

La recherche en grille évalue chaque combinaison de valeurs d'hyperparamètres spécifiées : taux d'apprentissage [1e-3, 1e-4, 1e-5] × tailles de lot [16, 32, 64] = 9 expériences. C'est exhaustif mais exponentiellement coûteux à mesure que plus d'hyperparamètres sont ajoutés. La recherche aléatoire échantillonne des combinaisons aléatoires dans des plages spécifiées — étonnamment, elle trouve souvent de meilleures configurations que la recherche en grille parce qu'elle explore l'espace plus uniformément (Bergstra & Bengio, 2012).

Optimisation bayésienne

L'optimisation bayésienne utilise un modèle probabiliste (typiquement un processus gaussien ou un modèle basé sur les arbres) pour prédire quels hyperparamètres sont susceptibles de bien performer en se basant sur les expériences passées, puis priorise ces régions. Des bibliothèques comme Optuna, Ray Tune et W&B Sweeps implémentent ça. Pour les expériences coûteuses (entraîner un modèle prend des heures), l'avantage d'efficacité de l'optimisation bayésienne par rapport à la recherche aléatoire est significatif — elle trouve typiquement de bonnes configurations en 3–5 fois moins d'expériences.

Conseils pratiques

Commencer avec les valeurs par défaut établies pour ton architecture (taux d'apprentissage publiés, tailles de lot, etc.), puis ajuster les paramètres les plus impactants en premier. Pour le fine-tuning de LLM, le taux d'apprentissage est presque toujours le plus important (essayer 1e-5 à 5e-4). Pour LoRA, le rang (4–64) et alpha (typiquement 2× le rang) comptent le plus. Utiliser l'arrêt précoce pour couper court les expériences non prometteuses. Tout logger dans W&B ou similaire — tu voudras comparer les runs et comprendre ce qui a marché.