基礎

Contamination

別名：資料污染、基準洩漏

當基準測試資料出現在模型的訓練資料中，使其分數被膨脹而不反映真正的能力。如果模型在訓練期間看到了測試題目而「事先複習了答案」，其基準效能就毫無意義。隨著訓練資料集越來越大並抓取更多的網際網路內容（基準資料通常在網上公布），污染正成為日益嚴重的問題。

為什麼重要

污染破壞了 AI 產業用來比較模型的整個基準系統。一個因為記住答案而在 MMLU 上得 90% 的模型，並不比一個從未見過答案而得 80% 的模型更聰明。隨著更多基準洩漏到訓練資料中，社群被迫不斷建立新基準，而私有的保留評估變得比公開排行榜更重要。

深度解析

污染透過多種方式發生。直接包含：基準資料以原文出現在訓練語料庫中（通常透過抓取託管基準問題的網站）。間接洩漏：訓練資料包含對基準問題的討論、模型生成的解答或衍生內容。時間洩漏：模型在「新」基準上評估，但訓練資料截止日期包含該基準的早期版本。

偵測困難

偵測污染並不簡單。你可以在訓練資料中搜索測試題的精確匹配，但改寫或部分匹配更難捕捉。一些研究者使用成員推理攻擊——檢查模型對測試樣本的信心是否可疑地高於類似的未見過的樣本。但這些方法有偽陽性和偽陰性，而且訓練資料的存取通常有限。

回應措施

社群正以多種方式回應：不公開的私有保留基準（如一些 AI 實驗室的內部評估）、定期生成新問題的動態基準、Chatbot Arena（使用真實使用者偏好而非靜態測試集），以及將污染分析作為模型評估報告的必要部分。向人類評估和即時基準的轉變部分由污染問題驅動。

相關概念

← 所有術語

← Constitutional AI ControlNet →