Validação Cruzada: Definição e significado — Wiki de IA

Uma técnica para avaliar o desempenho de um modelo quando você não tem dados suficientes para um conjunto de teste separado. A validação cruzada K-fold divide os dados em K partes iguais, treina em K−1 partes e avalia na parte restante, rotacionando K vezes para que cada ponto de dado seja usado tanto para treinamento quanto para avaliação. A pontuação média em todos os K folds dá uma estimativa de desempenho mais confiável do que uma única divisão treino/teste.

Por que isso importa

A validação cruzada é essencial quando dados são escassos — se você tem apenas 500 exemplos, reservar 100 para teste significa treinar com 20% menos dados. A validação cruzada usa todos os dados tanto para treinamento quanto para avaliação. Ela também fornece um intervalo de confiança (variância entre folds) em vez de um único número, indicando quão estável é o desempenho do seu modelo.

Em profundidade

CV de 5 folds: divida os dados em 5 partes. Treine nas partes 1-4, avalie na parte 5. Depois treine nas partes 1-3+5, avalie na parte 4. Repita para todos os 5 folds. Calcule a média das 5 pontuações de avaliação. O resultado é mais confiável do que uma única divisão 80/20 porque é robusto à divisão particular — um conjunto de teste "sortudo" ou "azarado" não pode distorcer o resultado. O desvio padrão entre folds indica confiabilidade.

K-Fold Estratificado

Para classificação com classes desbalanceadas (doença rara: 5% positivo, 95% negativo), a divisão aleatória pode colocar todos os positivos em um fold. O K-fold estratificado garante que cada fold tenha a mesma distribuição de classes que o dataset completo. Isso evita folds sem exemplos positivos (inúteis para avaliação) e dá estimativas de desempenho mais confiáveis para classes minoritárias. Sempre use K-fold estratificado para classificação.

Quando Não Usar

A validação cruzada é computacionalmente cara (K vezes o custo de treinamento) e raramente usada para modelos grandes. Fazer fine-tuning de um modelo de 7B cinco vezes para CV de 5 folds é impraticável. Para LLMs, um único conjunto de validação separado é o padrão porque: os datasets são grandes o suficiente para avaliação confiável com uma única divisão, o treinamento é caro, e as representações pré-treinadas do modelo o tornam menos sensível à divisão específica de treinamento. A validação cruzada é mais valiosa para datasets pequenos com modelos clássicos de ML.