Synthetic Data: Definition & Meaning — AI Wiki

Des données d'entraînement générées par des modèles IA plutôt que collectées de sources du monde réel. Un gros modèle génère des exemples qui sont ensuite utilisés pour entraîner ou fine-tuner d'autres modèles. Ça peut inclure des paires question-réponse synthétiques, des conversations synthétiques, du code synthétique ou des versions augmentées de vraies données. C'est en train de devenir une partie standard du pipeline d'entraînement pour la plupart des compagnies IA.

Pourquoi c'est important

Les données synthétiques sont en train de remodeler le développement IA parce que les données étiquetées du monde réel sont chères, lentes à collecter et parfois impossibles à obtenir (cas médicaux rares, événements rares, domaines sensibles à la vie privée). Quand un modèle de frontière peut générer 10 millions d'exemples d'entraînement en une nuit, l'économie de la collecte de données change fondamentalement. Mais le contrôle qualité est critique — s'entraîner sur de mauvaises données synthétiques amplifie les erreurs.

Deep Dive

The uses of synthetic data span the entire training pipeline. For pre-training, synthetic data can fill gaps in underrepresented domains or languages. For fine-tuning, frontier models generate instruction-following examples that teach smaller models specific skills. For alignment, models generate responses that are then ranked by humans or other models. For evaluation, synthetic benchmarks test capabilities that natural benchmarks don't cover.

Model Collapse

A key risk: if you train models on too much synthetic data from previous models, errors accumulate across generations. This is called "model collapse" — each generation loses some diversity and amplifies some biases from the previous one. The result is models that produce increasingly generic, repetitive, or distorted outputs. The research consensus is that synthetic data works best when mixed with real data and when quality is carefully filtered.

The Legality Question

Using synthetic data raises legal and ethical questions. If Model A generates training data and Model B is trained on it, does Model B inherit any IP issues from Model A's training data? Most model providers' terms of service address this — some allow it (Llama's license permits), some restrict it (OpenAI's terms historically prohibited training competing models on their outputs). The legal landscape is still evolving, but synthetic data is now so pervasive that the industry largely treats it as a standard practice with provider-specific restrictions.

Synthetic Data

Pourquoi c'est important

Deep Dive

Model Collapse

The Legality Question

Concepts liés