Conjunto de Validação: Definição e significado — Wiki de IA

Um subconjunto de dados retido do treinamento, usado para avaliar o desempenho do modelo durante o desenvolvimento e ajustar hiperparâmetros. A divisão em três: o conjunto de treinamento treina o modelo, o conjunto de validação guia decisões sobre o modelo (taxa de aprendizado, arquitetura, quando parar) e o conjunto de teste fornece a estimativa final e imparcial de desempenho. O conjunto de validação é seu espelho durante o desenvolvimento.

Por que isso importa

Sem um conjunto de validação, você está navegando às cegas. A loss de treinamento diz quão bem o modelo se ajusta aos dados de treinamento, mas não quão bem ele generaliza. O conjunto de validação responde a pergunta que realmente importa: "como este modelo vai se sair em dados que não viu?" Toda decisão durante o desenvolvimento do modelo — hiperparâmetros, escolhas de arquitetura, duração do treinamento — deve ser avaliada no conjunto de validação.

Em profundidade

Divisões típicas: 80% treinamento, 10% validação, 10% teste. Para datasets grandes, porcentagens menores para validação e teste bastam (até 1% de um milhão de exemplos são 10.000 — suficiente para avaliação confiável). Para datasets pequenos, validação cruzada é preferida (ver: Cross-Validation). A regra chave: nunca use o conjunto de teste para qualquer decisão durante o desenvolvimento. É apenas para a avaliação final. Se você espiar o conjunto de teste durante o desenvolvimento, sua estimativa de desempenho se torna enviesada.

Estratificação

Ao dividir dados, garanta que cada divisão tenha uma distribuição representativa de classes, domínios e outras características importantes. Se seu dataset é 90% inglês e 10% francês, uma divisão aleatória pode colocar todos os exemplos em francês no conjunto de treinamento, deixando você incapaz de avaliar o desempenho em francês. Divisão estratificada garante representação proporcional em cada divisão. Para dados de séries temporais, use divisões temporais (treinar no passado, validar no futuro) em vez de divisões aleatórias.

Validação no Desenvolvimento de LLMs

Para pré-treinamento de LLMs, o conjunto de validação é uma porção retida do corpus de treinamento, usada para calcular perplexidade durante o treinamento. Para fine-tuning, é uma porção retida do dataset de fine-tuning. Para alinhamento (RLHF/DPO), a validação é mais complexa: métricas automatizadas (pontuações do modelo de recompensa) mais avaliação humana em prompts retidos. A estratégia de validação deve corresponder a como o modelo será realmente usado — se os usuários farão perguntas diversas, o conjunto de validação deve ser diverso.