AI基准测试：定义与含义 — AI 维基

用于测量和比较AI模型能力的标准化测试。MMLU测试57个学科领域的知识。HumanEval测试代码生成。ARC测试科学推理。HellaSwag测试常识推理。GSM8K测试数学。基准分数提供了比较模型的通用语言，尽管它们有显著的局限性。

为什么重要

基准测试是行业的计分方式。当Anthropic说Claude在MMLU上得分X%、在HumanEval上得分Y%时，这些数字只有在你知道基准测试什么、如何评分以及它们的局限性时才有意义。理解基准有助于你看穿营销声明，评估哪个模型真正最适合你的具体用例。

深度解析

关键基准：MMLU（大规模多任务语言理解）——跨57个学科从STEM到人文的14,042道选择题。HumanEval——测试Python函数生成的164道编程题。ARC（AI2推理挑战）——需要推理的科学考试题。HellaSwag——测试常识知识的句子补全。GSM8K——8,500道小学数学应用题。每个测试不同的能力。

为什么基准有问题

几个问题：污染（测试题出现在训练数据中，虚高分数）、饱和（当所有模型都得分95%+时，基准不再有区分度）、刷分（专门训练以最大化基准分数而不真正提升能力）、以及覆盖面窄（基准测试可测的东西，不一定是对用户重要的东西）。一个在MMLU上得分90%的模型可能在实际帮助用户方面不如一个得分80%但更好地遵循指令的模型。

超越静态基准

该领域正在发展：Chatbot Arena使用实时人类偏好（难以污染，始终最新）。LiveBench使用频繁刷新的问题。SEAL和其他私有基准对测试数据保密。任务特定评估（SWE-bench用于真实GitHub问题解决，GPQA用于博士级科学）测试通用基准遗漏的能力。趋势是朝着更像真实使用、更少像标准化考试的评估方向发展。

AI基准测试

为什么重要

深度解析

为什么基准有问题

超越静态基准

相关概念