Overfitting acontece quando um modelo tem capacidade suficiente para memorizar os padrões específicos em seus dados de treinamento — incluindo ruído, outliers e correlações incidentais — em vez de aprender os padrões generalizáveis subjacentes. Mecanicamente, você o detecta rastreando duas curvas de loss durante o treinamento: a training loss e a validation loss (computada em um conjunto reservado no qual o modelo nunca treina). Em uma rodada de treinamento saudável, ambas as curvas descem juntas. O overfitting aparece como uma divergência: a training loss continua diminuindo enquanto a validation loss estabiliza ou começa a subir. Essa lacuna é o modelo gastando sua capacidade em memorização em vez de generalização.
As defesas clássicas contra overfitting foram refinadas ao longo de décadas e a maioria ainda se aplica ao treinamento moderno de LLMs. Dropout zera aleatoriamente uma fração das ativações de neurônios durante o treinamento, forçando o modelo a construir representações redundantes em vez de depender de qualquer caminho único. Weight decay (regularização L2) penaliza valores de peso grandes, desencorajando o modelo de ajustar padrões estreitos de alta magnitude. Early stopping significa monitorar a validation loss e parar o treinamento quando ela para de melhorar, mesmo se a training loss ainda estiver caindo. Data augmentation — criar variações sintéticas dos seus dados de treinamento — efetivamente expande o dataset sem coletar novos dados. Para modelos de linguagem, isso pode significar parafrasear, back-translation ou estratégias de janelamento de contexto que apresentam o mesmo texto com contexto circundante diferente.
Na era dos large language models, o overfitting tem algumas características não óbvias. Modelos muito grandes treinados em datasets muito grandes estão frequentemente no regime de "underfitting" para pré-treinamento — poderiam se beneficiar de mais dados ou mais passos de treinamento, não menos. As leis de escalonamento Chinchilla formalizaram isso: para um dado orçamento de computação, existe um equilíbrio ótimo entre tamanho do modelo e tokens de treinamento, e a maioria dos LLMs iniciais foram sobretreinados em poucos tokens relativamente ao seu número de parâmetros. Overfitting durante pré-treinamento em escala de fronteira é raro precisamente porque os datasets são tão enormes. Mas se torna uma preocupação séria durante o fine-tuning, onde os datasets são tipicamente ordens de magnitude menores. Fazer fine-tuning de um modelo 7B em alguns milhares de exemplos por mais de 2-3 epochs quase sempre resulta em overfitting, e os sintomas são reconhecíveis: o modelo começa a ecoar exemplos de treinamento literalmente, perde a capacidade de lidar com prompts que diferem do formato de treinamento e pode até degradar em tarefas gerais que anteriormente executava bem.
Uma das formas mais insidiosas de overfitting na IA moderna é o overfitting de benchmark, onde os dados de treinamento por acaso contêm (ou são deliberadamente selecionados para conter) questões similares aos benchmarks de avaliação. O modelo pontua bem no benchmark mas não adquiriu realmente a capacidade subjacente. Isso é diferente do overfitting clássico porque o modelo generaliza bem para dados similares ao seu conjunto de treinamento — o problema é que o benchmark está medindo performance adjacente ao conjunto de treinamento em vez de capacidade verdadeira. É por isso que o campo migrou para conjuntos de avaliação reservados, detecção de contaminação e avaliação baseada em preferência humana como o Chatbot Arena, onde as questões de teste não são conhecidas antecipadamente e não podem ser manipuladas através da seleção de dados.
Para praticantes, o modelo mental mais útil é que overfitting não é um estado binário, mas um espectro. Algum grau de memorização é inevitável e até desejável — você quer que o modelo saiba que Paris é a capital da França, que é um fato memorizado. O problema surge quando a memorização ocupa o lugar da generalização: o modelo lembra a frase exata do treinamento em vez de entender o conceito bem o suficiente para responder questões novas sobre ele. Observar a lacuna entre training loss e validation loss, usar métodos eficientes em parâmetros como LoRA (que limitam a capacidade do modelo de overfittar) e testar em exemplos genuinamente fora da distribuição são as melhores defesas práticas.