Datasets vêm em muitas formas: corpus de texto para modelos de linguagem, imagens rotuladas para classificadores, pares de pergunta-resposta para fine-tuning, pares de preferência para alinhamento e datasets de benchmark para avaliação. A distinção entre conjunto de treinamento (o que o modelo aprende), conjunto de validação (o que guia o ajuste de hiperparâmetros) e conjunto de teste (o que mede o desempenho final) é fundamental — avaliar nos dados de treinamento não tem sentido porque o modelo os memorizou.
Datasets de pré-treinamento de LLMs cresceram de milhões de tokens (GPT inicial) para trilhões (modelos modernos). Common Crawl, Wikipedia, livros, repositórios de código, artigos científicos e texto web curado formam a mistura típica. Mas mais dados nem sempre é melhor — as leis de escalonamento Chinchilla mostraram que qualidade e quantidade de dados devem escalar junto com o tamanho do modelo. Deduplicação, filtragem de conteúdo tóxico ou de baixa qualidade e balanceamento de domínios são todos passos críticos.
Todo dataset carrega os viéses de suas fontes. Um modelo treinado majoritariamente em texto web em inglês vai ter desempenho pior em outros idiomas. Um dataset raspado da internet herda os preconceitos da sociedade. Isso não é um problema que você resolve com arquitetura — requer curação cuidadosa de dados, auditoria e mitigação pós-treinamento. O trabalho mais impactante em ética de IA frequentemente acontece no nível do dataset.