Zubnet AIApprendreWiki › Hyperparameter Tuning
Training

Hyperparameter Tuning

HPO, Hyperparameter Optimization, Grid Search
Chercher systématiquement les meilleurs hyperparamètres — les choix de configuration qui ne sont pas appris pendant l'entraînement mais qui doivent être réglés avant qu'il commence. Learning rate, batch size, nombre de couches, taux de dropout et rang LoRA sont tous des hyperparamètres. Les méthodes de tuning incluent la grid search (essayer toutes les combinaisons), la random search (essayer des combinaisons aléatoires) et l'optimisation bayésienne (utiliser les résultats passés pour guider la recherche).

Pourquoi c'est important

La différence entre un bon et un mauvais set d'hyperparamètres peut être énorme — un mauvais learning rate peut faire diverger l'entraînement ou converger vers une solution pourrie. Le tuning d'hyperparamètres est comment tu tires le maximum de ton architecture de modèle et de tes données. Pour le fine-tuning de LLM, le learning rate et le nombre d'epochs sont typiquement les hyperparamètres les plus impactants à tuner.

Deep Dive

Grid search evaluates every combination of specified hyperparameter values: learning rates [1e-3, 1e-4, 1e-5] × batch sizes [16, 32, 64] = 9 experiments. It's exhaustive but exponentially expensive as more hyperparameters are added. Random search samples random combinations from specified ranges — surprisingly, it often finds better configurations than grid search because it explores the space more evenly (Bergstra & Bengio, 2012).

Bayesian Optimization

Bayesian optimization uses a probabilistic model (typically a Gaussian process or tree-based model) to predict which hyperparameters are likely to perform well based on past experiments, then prioritizes those regions. Libraries like Optuna, Ray Tune, and W&B Sweeps implement this. For expensive experiments (training a model takes hours), Bayesian optimization's efficiency advantage over random search is significant — it typically finds good configurations in 3–5x fewer experiments.

Practical Tips

Start with established defaults for your architecture (published learning rates, batch sizes, etc.), then tune the most impactful parameters first. For LLM fine-tuning, learning rate is almost always the most important (try 1e-5 to 5e-4). For LoRA, rank (4–64) and alpha (typically 2× rank) matter most. Use early stopping to cut unpromising experiments short. Log everything to W&B or similar — you'll want to compare runs and understand what worked.

Concepts liés

← Tous les termes
ESC