Google Research科学家Flip Korn和Chris Welty开发了一个框架,揭露了AI benchmark构建中的根本缺陷:大多数在每个评估项目上使用的人类评估者太少。他们对"(N,K)权衡"的研究——平衡项目数量与每项评估者数量——发现行业标准的1-5个评估者往往无法捕捉自然的人类分歧,使得benchmark的可复现性低于研究人员的假设。
这很重要,因为AI评估历来偏重广度而非深度,要求许多人评估不同的项目,而不是让多人评估相同的项目。这个问题在主观任务中变得尖锐,比如毒性检测,人类观点自然会有差异。当benchmark通过默认使用多数投票来忽略这种分歧时,它们创造了一种虚假的真理感,无法反映现实世界的复杂性。两个毒性例子可能有相同的多数得分,但评估者之间的信心水平却大不相同。
令人震惊的是,尽管这个问题对可复现性有影响,但很少有研究对其进行检验——可复现性是指不同团队运行相同评估并获得一致结果的能力。研究人员基于真实的毒性和仇恨言论数据集开发了一个模拟器,对不同的评分配置进行压力测试,提供了他们所称的更可靠benchmark的"路线图"。
对于构建AI系统的开发者,这项研究建议你们应该对那些不报告评估者间一致性或使用最少人类验证的benchmark持怀疑态度。在主观任务上评估模型时,考虑benchmark分数周围的置信区间,而不仅仅是标题数字。注释预算和可靠性之间的权衡不仅仅是学术关注——它直接影响你的模型比较在生产中是否有意义。
