污染透過多種方式發生。直接包含:基準資料以原文出現在訓練語料庫中(通常透過抓取託管基準問題的網站)。間接洩漏:訓練資料包含對基準問題的討論、模型生成的解答或衍生內容。時間洩漏:模型在「新」基準上評估,但訓練資料截止日期包含該基準的早期版本。
偵測污染並不簡單。你可以在訓練資料中搜索測試題的精確匹配,但改寫或部分匹配更難捕捉。一些研究者使用成員推理攻擊——檢查模型對測試樣本的信心是否可疑地高於類似的未見過的樣本。但這些方法有偽陽性和偽陰性,而且訓練資料的存取通常有限。
社群正以多種方式回應:不公開的私有保留基準(如一些 AI 實驗室的內部評估)、定期生成新問題的動態基準、Chatbot Arena(使用真實使用者偏好而非靜態測試集),以及將污染分析作為模型評估報告的必要部分。向人類評估和即時基準的轉變部分由污染問題驅動。