Google Research科學家Flip Korn和Chris Welty開發了一個框架,揭露了AI benchmark建構中的根本缺陷:大多數在每個評估項目上使用的人類評估者太少。他們對"(N,K)權衡"的研究——平衡項目數量與每項評估者數量——發現業界標準的1-5個評估者往往無法捕捉自然的人類分歧,使得benchmark的可重現性低於研究人員的假設。

這很重要,因為AI評估歷來偏重廣度而非深度,要求許多人評估不同的項目,而不是讓多人評估相同的項目。這個問題在主觀任務中變得尖銳,比如毒性檢測,人類觀點自然會有差異。當benchmark透過預設使用多數投票來忽略這種分歧時,它們創造了一種虛假的真理感,無法反映現實世界的複雜性。兩個毒性例子可能有相同的多數得分,但評估者之間的信心水準卻大不相同。

令人震驚的是,儘管這個問題對可重現性有影響,但很少有研究對其進行檢驗——可重現性是指不同團隊執行相同評估並獲得一致結果的能力。研究人員基於真實的毒性和仇恨言論資料集開發了一個模擬器,對不同的評分配置進行壓力測試,提供了他們所稱的更可靠benchmark的"路線圖"。

對於建構AI系統的開發者,這項研究建議你們應該對那些不報告評估者間一致性或使用最少人類驗證的benchmark持懷疑態度。在主觀任務上評估模型時,考慮benchmark分數周圍的信賴區間,而不僅僅是標題數字。註釋預算和可靠性之間的權衡不僅僅是學術關注——它直接影響你的模型比較在生產中是否有意義。