Contamination: Definition & Meaning — AI Wiki

Quand des données de test de benchmark apparaissent dans les données d'entraînement d'un modèle, gonflant ses scores sans refléter une capacité réelle. Si un modèle a « étudié la clé de réponse » en voyant les questions de test pendant l'entraînement, sa performance au benchmark ne veut rien dire. La contamination est un problème grandissant pendant que les datasets d'entraînement grossissent et scrapent plus d'Internet, où les données de benchmark sont souvent publiées.

Pourquoi c'est important

La contamination sape le système de benchmark entier que l'industrie IA utilise pour comparer les modèles. Un modèle qui score 90 % au MMLU parce qu'il a mémorisé les réponses n'est pas plus intelligent qu'un qui score 80 % qui ne les a jamais vues. Pendant que plus de benchmarks fuient dans les données d'entraînement, la communauté est forcée de créer constamment de nouveaux benchmarks, et les évaluations privées held-out deviennent plus importantes que les leaderboards publics.

Deep Dive

Contamination happens in several ways. Direct inclusion: benchmark data appears verbatim in the training corpus (often via web scraping sites that host benchmark questions). Indirect leakage: training data includes discussions about benchmark questions, model-generated solutions, or derivative content. Temporal leakage: a model is evaluated on a "new" benchmark, but the training data cutoff includes early versions of that benchmark.

Detection Is Hard

Detecting contamination isn't straightforward. You can search for exact matches of test questions in training data, but paraphrased or partial matches are harder to catch. Some researchers use membership inference attacks — checking if the model's confidence on test examples is suspiciously higher than on similar unseen examples. But these methods have false positives and negatives, and access to training data is often limited.

The Response

The community is responding in several ways: private held-out benchmarks that aren't published (like some internal evaluations at AI labs), dynamic benchmarks that generate new questions regularly, Chatbot Arena (which uses real user preferences rather than static test sets), and contamination analysis as a required part of model evaluation reports. The shift toward human evaluation and live benchmarks is partly driven by the contamination problem.

Contamination

Pourquoi c'est important

Deep Dive

Detection Is Hard

The Response

Concepts liés