Ajuste de Hiperparâmetros: Definição e significado — Wiki de IA

Buscar sistematicamente os melhores hiperparâmetros — as escolhas de configuração que não são aprendidas durante o treinamento mas devem ser definidas antes dele começar. Taxa de aprendizado, tamanho de batch, número de camadas, taxa de dropout e rank do LoRA são todos hiperparâmetros. Métodos de ajuste incluem grid search (testar todas as combinações), random search (testar combinações aleatórias) e otimização bayesiana (usar resultados passados para guiar a busca).

Por que isso importa

A diferença entre um bom e um mau conjunto de hiperparâmetros pode ser enorme — uma taxa de aprendizado errada pode fazer o treinamento divergir ou convergir para uma solução ruim. Ajuste de hiperparâmetros é como você extrai o máximo da sua arquitetura de modelo e dados. Para fine-tuning de LLMs, taxa de aprendizado e número de épocas são tipicamente os hiperparâmetros mais impactantes para ajustar.

Em profundidade

Grid search avalia toda combinação de valores de hiperparâmetros especificados: taxas de aprendizado [1e-3, 1e-4, 1e-5] × tamanhos de batch [16, 32, 64] = 9 experimentos. É exaustivo mas exponencialmente caro conforme mais hiperparâmetros são adicionados. Random search amostra combinações aleatórias de faixas especificadas — surpreendentemente, frequentemente encontra configurações melhores que grid search porque explora o espaço mais uniformemente (Bergstra & Bengio, 2012).

Otimização Bayesiana

Otimização bayesiana usa um modelo probabilístico (tipicamente um processo gaussiano ou modelo baseado em árvores) para prever quais hiperparâmetros provavelmente vão ter bom desempenho com base em experimentos passados, e então prioriza essas regiões. Bibliotecas como Optuna, Ray Tune e W&B Sweeps implementam isso. Para experimentos caros (treinar um modelo leva horas), a vantagem de eficiência da otimização bayesiana sobre random search é significativa — tipicamente encontra boas configurações em 3–5x menos experimentos.

Dicas Práticas

Comece com defaults estabelecidos para sua arquitetura (taxas de aprendizado publicadas, tamanhos de batch, etc.), depois ajuste os parâmetros mais impactantes primeiro. Para fine-tuning de LLMs, taxa de aprendizado é quase sempre o mais importante (tente 1e-5 a 5e-4). Para LoRA, rank (4–64) e alpha (tipicamente 2× rank) importam mais. Use parada antecipada para cortar experimentos pouco promissores. Registre tudo no W&B ou similar — você vai querer comparar execuções e entender o que funcionou.