Grid search evalúa cada combinación de valores de hiperparámetros especificados: tasas de aprendizaje [1e-3, 1e-4, 1e-5] × tamaños de batch [16, 32, 64] = 9 experimentos. Es exhaustivo pero exponencialmente costoso a medida que se agregan más hiperparámetros. Random search muestrea combinaciones aleatorias de rangos especificados — sorprendentemente, a menudo encuentra mejores configuraciones que grid search porque explora el espacio más uniformemente (Bergstra & Bengio, 2012).
La optimización bayesiana usa un modelo probabilístico (típicamente un proceso gaussiano o modelo basado en árboles) para predecir qué hiperparámetros tienen probabilidad de funcionar bien basándose en experimentos pasados, luego prioriza esas regiones. Librerías como Optuna, Ray Tune y W&B Sweeps implementan esto. Para experimentos costosos (entrenar un modelo toma horas), la ventaja de eficiencia de la optimización bayesiana sobre random search es significativa — típicamente encuentra buenas configuraciones en 3–5x menos experimentos.
Comienza con valores predeterminados establecidos para tu arquitectura (tasas de aprendizaje publicadas, tamaños de batch, etc.), luego ajusta los parámetros más impactantes primero. Para ajuste fino de LLMs, la tasa de aprendizaje es casi siempre la más importante (prueba de 1e-5 a 5e-4). Para LoRA, el rango (4–64) y alpha (típicamente 2× rango) importan más. Usa parada temprana para cortar experimentos poco prometedores. Registra todo en W&B o similar — querrás comparar ejecuciones y entender qué funcionó.