Zubnet AIAprenderWiki › Tamanho de Batch e Época
Treinamento

Tamanho de Batch e Época

Também conhecido como: Mini-Batch, Época de Treinamento
Tamanho de batch é quantos exemplos de treinamento o modelo processa antes de atualizar seus parâmetros. Uma época é uma passagem completa por todo o dataset de treinamento. Um modelo treinado por 3 épocas em 1 milhão de exemplos com batch size de 1.000 processa 1.000 exemplos por atualização, leva 1.000 atualizações por época e 3.000 atualizações no total.

Por que isso importa

Batch size e épocas são os controles mais fundamentais do treinamento. Batch size afeta velocidade de treinamento, uso de memória e até o que o modelo aprende (batches pequenos adicionam ruído que pode ajudar a generalização; batches grandes convergem mais rápido mas podem generalizar pior). O número de épocas determina quantas vezes o modelo vê cada exemplo — poucas e ele subajusta, muitas e ele sobreajusta.

Em profundidade

Na prática, gradient descent estocástico processa os dados de treinamento em mini-batches aleatórios. Cada batch dá uma estimativa do gradiente verdadeiro — batches maiores dão estimativas melhores (menos ruído) mas custam mais memória e computação por passo. Tamanhos de batch típicos vão de 32 (modelos pequenos, GPU única) a milhões de tokens (pré-treinamento de LLMs em milhares de GPUs).

O Desafio do Treinamento com Batches Grandes

Pré-treinamento de LLMs usa tamanhos de batch efetivos enormes (milhões de tokens por atualização) distribuídos entre muitas GPUs. Nessa escala, a learning rate precisa ser ajustada cuidadosamente — a regra de escalonamento linear (dobre o batch size, dobre a learning rate) funciona até certo ponto, depois quebra. Acumulação de gradiente permite simular batches grandes em hardware menor, acumulando gradientes ao longo de múltiplas passagens forward antes de atualizar.

Épocas na Era dos LLMs

Pré-treinamento de LLMs modernos tipicamente roda por menos de uma época no dataset completo — os dados são tão grandes que o modelo nunca vê todos. Isso é uma mudança em relação ao ML clássico onde 10–100 épocas era normal. Pesquisas sugerem que repetir dados (múltiplas épocas) pode na verdade prejudicar o desempenho de LLMs devido a efeitos de memorização, embora isso dependa da qualidade dos dados. Fine-tuning, por outro lado, tipicamente roda por 1–5 épocas em um dataset muito menor.

Conceitos relacionados

← Todos os termos
← SwiGLU Temperatura →