Les jeux de données existent sous de nombreuses formes : corpus textuels pour les modèles de langage, images étiquetées pour les classifieurs, paires question-réponse pour l'ajustement fin, paires de préférences pour l'alignement, et jeux de données de référence pour l'évaluation. La distinction entre ensemble d'entraînement (ce sur quoi le modèle apprend), ensemble de validation (ce qui guide le réglage des hyperparamètres) et ensemble de test (ce qui mesure la performance finale) est fondamentale — évaluer sur les données d'entraînement est sans valeur parce que le modèle les a mémorisées.
Les jeux de données de pré-entraînement des LLM sont passés de millions de tokens (les premiers GPT) à des trillions (les modèles modernes). Common Crawl, Wikipédia, les livres, les dépôts de code, les articles scientifiques et le texte web curé forment le mélange typique. Mais plus de données n'est pas toujours mieux — les lois d'échelle de Chinchilla ont montré que la qualité et la quantité des données doivent évoluer ensemble avec la taille du modèle. La déduplication, le filtrage du contenu toxique ou de faible qualité, et l'équilibrage des domaines sont autant d'étapes critiques.
Chaque jeu de données porte les biais de ses sources. Un modèle entraîné principalement sur du texte web en anglais performera moins bien dans d'autres langues. Un jeu de données récupéré d'internet hérite des préjugés de la société. Ce n'est pas un problème qu'on peut résoudre avec l'architecture — ça nécessite une curation soigneuse des données, des audits et des mesures d'atténuation post-entraînement. Le travail d'éthique en IA le plus impactant se fait souvent au niveau du jeu de données.