CV de 5 folds: divida os dados em 5 partes. Treine nas partes 1-4, avalie na parte 5. Depois treine nas partes 1-3+5, avalie na parte 4. Repita para todos os 5 folds. Calcule a média das 5 pontuações de avaliação. O resultado é mais confiável do que uma única divisão 80/20 porque é robusto à divisão particular — um conjunto de teste "sortudo" ou "azarado" não pode distorcer o resultado. O desvio padrão entre folds indica confiabilidade.
Para classificação com classes desbalanceadas (doença rara: 5% positivo, 95% negativo), a divisão aleatória pode colocar todos os positivos em um fold. O K-fold estratificado garante que cada fold tenha a mesma distribuição de classes que o dataset completo. Isso evita folds sem exemplos positivos (inúteis para avaliação) e dá estimativas de desempenho mais confiáveis para classes minoritárias. Sempre use K-fold estratificado para classificação.
A validação cruzada é computacionalmente cara (K vezes o custo de treinamento) e raramente usada para modelos grandes. Fazer fine-tuning de um modelo de 7B cinco vezes para CV de 5 folds é impraticável. Para LLMs, um único conjunto de validação separado é o padrão porque: os datasets são grandes o suficiente para avaliação confiável com uma única divisão, o treinamento é caro, e as representações pré-treinadas do modelo o tornam menos sensível à divisão específica de treinamento. A validação cruzada é mais valiosa para datasets pequenos com modelos clássicos de ML.