Zubnet AI学习Wiki › AI基准测试
基础

AI基准测试

别名:MMLU、HumanEval、ARC、HellaSwag
用于测量和比较AI模型能力的标准化测试。MMLU测试57个学科领域的知识。HumanEval测试代码生成。ARC测试科学推理。HellaSwag测试常识推理。GSM8K测试数学。基准分数提供了比较模型的通用语言,尽管它们有显著的局限性。

为什么重要

基准测试是行业的计分方式。当Anthropic说Claude在MMLU上得分X%、在HumanEval上得分Y%时,这些数字只有在你知道基准测试什么、如何评分以及它们的局限性时才有意义。理解基准有助于你看穿营销声明,评估哪个模型真正最适合你的具体用例。

深度解析

关键基准:MMLU(大规模多任务语言理解)——跨57个学科从STEM到人文的14,042道选择题。HumanEval——测试Python函数生成的164道编程题。ARC(AI2推理挑战)——需要推理的科学考试题。HellaSwag——测试常识知识的句子补全。GSM8K——8,500道小学数学应用题。每个测试不同的能力。

为什么基准有问题

几个问题:污染(测试题出现在训练数据中,虚高分数)、饱和(当所有模型都得分95%+时,基准不再有区分度)、刷分(专门训练以最大化基准分数而不真正提升能力)、以及覆盖面窄(基准测试可测的东西,不一定是对用户重要的东西)。一个在MMLU上得分90%的模型可能在实际帮助用户方面不如一个得分80%但更好地遵循指令的模型。

超越静态基准

该领域正在发展:Chatbot Arena使用实时人类偏好(难以污染,始终最新)。LiveBench使用频繁刷新的问题。SEAL和其他私有基准对测试数据保密。任务特定评估(SWE-bench用于真实GitHub问题解决,GPQA用于博士级科学)测试通用基准遗漏的能力。趋势是朝着更像真实使用、更少像标准化考试的评估方向发展。

相关概念

← 所有术语
← AI与版权 AlexNet →