基础

Contamination

别名：数据污染、基准泄露

当基准测试数据出现在模型的训练数据中，使其分数虚高而无法反映真实能力。如果一个模型在训练期间看到了测试题目从而“提前学了答案”，那它的基准表现毫无意义。随着训练数据集越来越大，从发布了基准数据的互联网上抓取更多内容，污染问题日益严重。

为什么重要

污染破坏了AI行业用来比较模型的整个基准体系。一个因记住答案而在MMLU上得到90%的模型并不比从未见过这些答案却得到80%的模型更聪明。随着更多基准泄入训练数据，社区被迫不断创建新基准，私有留出评估变得比公开排行榜更重要。

深度解析

污染通过多种方式发生。直接包含：基准数据逐字出现在训练语料中（通常是通过网络爬虫抓取了托管基准题目的网站）。间接泄露：训练数据包含关于基准题目的讨论、模型生成的解答或衍生内容。时间泄露：模型在一个“新”基准上评估，但训练数据截止日期包含了该基准的早期版本。

检测很困难

检测污染并不简单。你可以在训练数据中搜索测试题目的精确匹配，但释义或部分匹配更难捕获。一些研究人员使用成员推断攻击——检查模型对测试样本的置信度是否比对类似未见样本的置信度可疑地高。但这些方法存在假阳性和假阴性，而且对训练数据的访问通常有限。

应对措施

社区正在以多种方式应对：不公开的私有留出基准（如一些AI实验室的内部评估）、定期生成新题目的动态基准、Chatbot Arena（使用真实用户偏好而非静态测试集），以及将污染分析作为模型评估报告的必要部分。向人工评估和实时基准的转变部分是由污染问题驱动的。

相关概念

← 所有术语

← Constitutional AI ControlNet →