Hiperparâmetros: Definição e significado — Wiki de IA

Configurações que você escolhe antes do início do treinamento que controlam como o modelo aprende — ao contrário dos parâmetros, que o modelo aprende por si mesmo. Hiperparâmetros incluem taxa de aprendizado (quão grande cada passo de atualização é), tamanho do lote (quantos exemplos processar de uma vez), número de épocas (quantas vezes passar pelos dados), escolha do otimizador (Adam, SGD, AdamW), decaimento de peso, taxa de dropout e decisões de arquitetura, como número de camadas e dimensões ocultas. Ajustar os hiperparâmetros corretamente é frequentemente a diferença entre um modelo que converge de forma bela e outro que diverge para o absurdo.

Por que isso importa

A sintonia de hiperparâmetros é onde a engenharia de ML se torna parte ciência, parte arte. Você pode ter um conjunto de dados perfeito e uma arquitetura adequada, mas uma taxa de aprendizado muito alta pode fazer o treinamento explodir e uma muito baixa nunca convergirá. Entender hiperparâmetros é essencial para qualquer pessoa que treine ou faça fine-tuning de modelos — e saber quais são os mais importantes economiza uma quantidade enorme de recursos computacionais.

Em profundidade

Três hiperparâmetros dominam cada execução de treinamento, e entender como eles interagem é mais importante do que memorizar valores padrão. A taxa de aprendizado controla quanto os pesos do modelo mudam em cada passo de atualização — muito alto e a perda explode, muito baixo e você desperdiça recursos computacionais rastejando em direção a um mínimo que nunca alcançará. Valores típicos para o pré-treinamento de um modelo de linguagem grande ficam entre 1e-4 e 6e-4, embora esse intervalo mude dependendo do tamanho do modelo e do otimizador. O tamanho do lote determina quantos exemplos o modelo vê antes de atualizar seus pesos. Lotes maiores oferecem estimativas de gradiente mais estáveis, mas custam mais memória e, em alguns casos, podem prejudicar a generalização. O otimizador — quase sempre alguma variante de Adam (AdamW sendo o padrão atual) — decide como usar a informação do gradiente para realmente mover os pesos. O AdamW adiciona decaimento de peso desacoplado, que atua como regularizador e impede que os pesos cresçam ilimitadamente. Esses três estão profundamente entrelaçados: dobrar o tamanho do lote geralmente significa que você pode aumentar a taxa de aprendizado (regra de escala linear), e mudar de otimizador pode alterar quais taxas de aprendizado são mesmo estáveis. Você não pode ajustar um isoladamente e esperar resultados limpos.

Agendamento de Taxas de Aprendizado

Uma taxa de aprendizado constante raramente é a escolha certa, e isso é uma dessas coisas que soa como sabedoria convencional, mas tem suporte empírico sólido. A maioria das execuções bem-sucedidas de treinamento usa uma fase de aquecimento seguida por algum tipo de decaimento. O aquecimento começa com a taxa de aprendizado próxima de zero e a aumenta ao longo das primeiras centenas a algumas milhares de etapas — isso impede que o modelo inicializado aleatoriamente dê passos degradantes enormes antes de aprender qualquer estrutura útil. Após o aquecimento, o decaimento cosseno é o agendamento mais popular: a taxa de aprendizado segue uma curva de cosseno metade do pico até próximo de zero ao longo das etapas restantes de treinamento. Isso dá ao modelo um longo período com uma taxa de aprendizado produtiva, seguido por um resfriamento suave que ajuda a estabilizar em um mínimo bom. O decaimento linear também funciona, mas o cosseno tornou-se o padrão porque performa tão bem ou melhor consistentemente em diferentes arquiteturas. Alguns trabalhos recentes exploram agendamentos cíclicos e padrões de aquecimento-estável-decaimento, mas se você estiver começando um novo projeto e quiser algo confiável, o decaimento cosseno com aquecimento é a aposta segura.

Pré-Treinamento vs. Afinamento

Os hiperparâmetros que importam mudam drasticamente dependendo de se você está pré-treinando do zero ou afinando um modelo existente. O pré-treinamento é uma questão de força bruta — você se importa com taxa de aprendizado, tamanho do lote, otimizador e decaimento de peso porque está construindo representações do nada. O afinamento é uma cirurgia em um cérebro já treinado, e as regras mudam conforme. As taxas de aprendizado caem em uma ordem de magnitude ou mais: onde o pré-treinamento pode usar 3e-4, o afinamento tipicamente usa 1e-5 a 5e-5, porque você quer empurrar o modelo, não sobrescrever o que ele já sabe. O número de épocas importa muito mais no afinamento — uma a três passadas pelos dados são frequentemente suficientes, e ir além corrói o risco de sobreajuste catastrófico em um conjunto de dados pequeno. Com métodos eficientes em parâmetros como LoRA, entra em cena um novo hiperparâmetro: o rank, que controla quanta capacidade o adaptador tem. Rank 8 a 64 cobre a maioria dos casos de uso, com ranks mais altos adicionando expressividade ao custo de mais parâmetros treináveis. LoRA também introduz seu próprio fator de escala alpha, e a relação entre alpha e rank efetivamente controla a taxa de aprendizado do adaptador. O resultado é que o afinamento tem menos hiperparâmetros para ajustar, mas cada um é mais sensível porque você está operando em um modelo que já tem fortes prioridades.

Estratégias de Busca

A busca em grade — tentar todas as combinações de valores em uma grade pré-definida — é a estratégia que todos aprendem primeiro e que quase ninguém usa em escala. O problema é combinatório: cinco hiperparâmetros com cinco valores cada significa 3.125 execuções, e a maioria dessas execuções explora regiões entediadoras e redundantes do espaço. A busca aleatória, proposta por Bergstra e Bengio em 2012, é simplesmente embarracante e consistentemente supera a busca em grade: basta amostrar valores de hiperparâmetros de distribuições razoáveis e executar um orçamento fixo de experimentos. Funciona porque nem todos os hiperparâmetros importam igualmente, e a amostragem aleatória é muito mais provável de acertar os valores importantes dos que importam. Além da busca aleatória, a otimização bayesiana (ferramentas como Optuna ou Weights & Biases Sweeps) constrói um modelo de como os hiperparâmetros mapeiam para o desempenho e usa esse modelo para sugerir configurações cada vez mais promissoras. O treinamento baseado em população adota uma abordagem totalmente diferente — ele executa muitos trabalhos de treinamento em paralelo, periodicamente copia os pesos dos melhores performadores e muta seus hiperparâmetros, efetivamente evoluindo uma configuração boa durante o treinamento em vez de antes dele. Cada estratégia troca custo computacional contra eficiência de exploração, mas a resposta honesta é que a busca aleatória com um orçamento razoável te leva até 90% do caminho.

O Segredo do Praticante

Aqui está a parte que raramente aparece nos livros-texto: a maioria dos hiperparâmetros em sistemas de produção não é derivada de princípios fundamentais ou encontrada por meio de busca rigorosa. Eles são copiados de papers que funcionaram em problemas semelhantes. Quando alguém pré-treina um modelo de 7B parâmetros, ele olha para a taxa de aprendizado que LLaMA usou, o tamanho do lote que Chinchilla recomendou, o decaimento de peso que GPT-3 relatou — e começa aí. Isso não é preguiça; é racional. O paisagem dos hiperparâmetros para modelos grandes é vasta, cada experimento custa milhares de dólares em recursos computacionais, e as configurações publicadas representam centenas de milhares de dólares de busca implícita já realizada por laboratórios bem financiados. Na prática, a arte do ajuste de hiperparâmetros é saber de onde começar com as configurações de um papel, quais um ou dois ajustes são valiosos para sua situação específica e quando algo está errado o suficiente para que você precise realmente buscar em vez de ajustar. Os princípios fundamentais importam para entender por que uma escolha funciona, mas copiar de predecessores bem-sucedidos é como a maioria das execuções reais de treinamento começa.

Hiperparâmetros