Jeu de données : Définition et signification — Wiki IA

Une collection structurée de données utilisée pour entraîner, évaluer ou tester un modèle d'apprentissage automatique. Les jeux de données peuvent être étiquetés (chaque exemple a une réponse correcte connue) ou non étiquetés (données brutes sans annotations). La qualité, la taille, la diversité et la représentativité d'un jeu de données déterminent fondamentalement ce qu'un modèle peut apprendre.

Pourquoi c'est important

Poubelle en entrée, poubelle en sortie. L'architecture la plus élégante entraînée sur un mauvais jeu de données produira de mauvais résultats. Inversement, un modèle simple entraîné sur d'excellentes données surpasse souvent un modèle complexe entraîné sur du bruit. La curation des données est sans doute la partie la plus impactante et la moins glamour du développement en IA.

En profondeur

Les jeux de données existent sous de nombreuses formes : corpus textuels pour les modèles de langage, images étiquetées pour les classifieurs, paires question-réponse pour l'ajustement fin, paires de préférences pour l'alignement, et jeux de données de référence pour l'évaluation. La distinction entre ensemble d'entraînement (ce sur quoi le modèle apprend), ensemble de validation (ce qui guide le réglage des hyperparamètres) et ensemble de test (ce qui mesure la performance finale) est fondamentale — évaluer sur les données d'entraînement est sans valeur parce que le modèle les a mémorisées.

L'histoire du passage à l'échelle des données

Les jeux de données de pré-entraînement des LLM sont passés de millions de tokens (les premiers GPT) à des trillions (les modèles modernes). Common Crawl, Wikipédia, les livres, les dépôts de code, les articles scientifiques et le texte web curé forment le mélange typique. Mais plus de données n'est pas toujours mieux — les lois d'échelle de Chinchilla ont montré que la qualité et la quantité des données doivent évoluer ensemble avec la taille du modèle. La déduplication, le filtrage du contenu toxique ou de faible qualité, et l'équilibrage des domaines sont autant d'étapes critiques.

Le biais vit dans les données

Chaque jeu de données porte les biais de ses sources. Un modèle entraîné principalement sur du texte web en anglais performera moins bien dans d'autres langues. Un jeu de données récupéré d'internet hérite des préjugés de la société. Ce n'est pas un problème qu'on peut résoudre avec l'architecture — ça nécessite une curation soigneuse des données, des audits et des mesures d'atténuation post-entraînement. Le travail d'éthique en IA le plus impactant se fait souvent au niveau du jeu de données.

Jeu de données

Pourquoi c'est important

En profondeur

L'histoire du passage à l'échelle des données

Le biais vit dans les données

Concepts connexes