La recherche en grille évalue chaque combinaison de valeurs d'hyperparamètres spécifiées : taux d'apprentissage [1e-3, 1e-4, 1e-5] × tailles de lot [16, 32, 64] = 9 expériences. C'est exhaustif mais exponentiellement coûteux à mesure que plus d'hyperparamètres sont ajoutés. La recherche aléatoire échantillonne des combinaisons aléatoires dans des plages spécifiées — étonnamment, elle trouve souvent de meilleures configurations que la recherche en grille parce qu'elle explore l'espace plus uniformément (Bergstra & Bengio, 2012).
L'optimisation bayésienne utilise un modèle probabiliste (typiquement un processus gaussien ou un modèle basé sur les arbres) pour prédire quels hyperparamètres sont susceptibles de bien performer en se basant sur les expériences passées, puis priorise ces régions. Des bibliothèques comme Optuna, Ray Tune et W&B Sweeps implémentent ça. Pour les expériences coûteuses (entraîner un modèle prend des heures), l'avantage d'efficacité de l'optimisation bayésienne par rapport à la recherche aléatoire est significatif — elle trouve typiquement de bonnes configurations en 3–5 fois moins d'expériences.
Commencer avec les valeurs par défaut établies pour ton architecture (taux d'apprentissage publiés, tailles de lot, etc.), puis ajuster les paramètres les plus impactants en premier. Pour le fine-tuning de LLM, le taux d'apprentissage est presque toujours le plus important (essayer 1e-5 à 5e-4). Pour LoRA, le rang (4–64) et alpha (typiquement 2× le rang) comptent le plus. Utiliser l'arrêt précoce pour couper court les expériences non prometteuses. Tout logger dans W&B ou similaire — tu voudras comparer les runs et comprendre ce qui a marché.