Grid search avalia toda combinação de valores de hiperparâmetros especificados: taxas de aprendizado [1e-3, 1e-4, 1e-5] × tamanhos de batch [16, 32, 64] = 9 experimentos. É exaustivo mas exponencialmente caro conforme mais hiperparâmetros são adicionados. Random search amostra combinações aleatórias de faixas especificadas — surpreendentemente, frequentemente encontra configurações melhores que grid search porque explora o espaço mais uniformemente (Bergstra & Bengio, 2012).
Otimização bayesiana usa um modelo probabilístico (tipicamente um processo gaussiano ou modelo baseado em árvores) para prever quais hiperparâmetros provavelmente vão ter bom desempenho com base em experimentos passados, e então prioriza essas regiões. Bibliotecas como Optuna, Ray Tune e W&B Sweeps implementam isso. Para experimentos caros (treinar um modelo leva horas), a vantagem de eficiência da otimização bayesiana sobre random search é significativa — tipicamente encontra boas configurações em 3–5x menos experimentos.
Comece com defaults estabelecidos para sua arquitetura (taxas de aprendizado publicadas, tamanhos de batch, etc.), depois ajuste os parâmetros mais impactantes primeiro. Para fine-tuning de LLMs, taxa de aprendizado é quase sempre o mais importante (tente 1e-5 a 5e-4). Para LoRA, rank (4–64) e alpha (tipicamente 2× rank) importam mais. Use parada antecipada para cortar experimentos pouco promissores. Registre tudo no W&B ou similar — você vai querer comparar execuções e entender o que funcionou.