污染通过多种方式发生。直接包含:基准数据逐字出现在训练语料中(通常是通过网络爬虫抓取了托管基准题目的网站)。间接泄露:训练数据包含关于基准题目的讨论、模型生成的解答或衍生内容。时间泄露:模型在一个“新”基准上评估,但训练数据截止日期包含了该基准的早期版本。
检测污染并不简单。你可以在训练数据中搜索测试题目的精确匹配,但释义或部分匹配更难捕获。一些研究人员使用成员推断攻击——检查模型对测试样本的置信度是否比对类似未见样本的置信度可疑地高。但这些方法存在假阳性和假阴性,而且对训练数据的访问通常有限。
社区正在以多种方式应对:不公开的私有留出基准(如一些AI实验室的内部评估)、定期生成新题目的动态基准、Chatbot Arena(使用真实用户偏好而非静态测试集),以及将污染分析作为模型评估报告的必要部分。向人工评估和实时基准的转变部分是由污染问题驱动的。