用於衡量和比較 AI 模型能力的標準化測試。MMLU 測試 57 個學術科目的知識。HumanEval 測試程式碼生成。ARC 測試科學推理。HellaSwag 測試常識推理。GSM8K 測試數學。基準分數為比較模型提供了通用語言,儘管它們有顯著的局限性。
基準測試是產業的計分方式。當 Anthropic 說 Claude 在 MMLU 上得分 X%、在 HumanEval 上得分 Y% 時,這些數字只有在你知道基準測試測試什麼、如何評分以及它們的局限性是什麼時才有意義。理解基準測試有助於你看穿行銷聲稱,並評估哪個模型對你的特定使用案例真正最好。
關鍵基準測試:MMLU(大規模多任務語言理解)— 涵蓋 STEM 到人文學科 57 個科目的 14,042 道選擇題。HumanEval — 164 個測試 Python 函數生成的程式設計問題。ARC(AI2 推理挑戰)— 需要推理的科學考試題目。HellaSwag — 測試常識知識的句子完成題。GSM8K — 8,500 道小學數學文字題。每個測試不同的能力。
幾個問題:污染(測試題目出現在訓練資料中,虛增分數)、飽和(當所有模型都得分 95% 以上時,基準測試不再有區分力)、遊戲化(專門為最大化基準分數而訓練,並未真正提高能力),以及覆蓋面窄(基準測試測試可測試的東西,而非使用者真正關心的東西)。一個在 MMLU 上得分 90% 的模型在實際幫助使用者方面可能不如一個得分 80% 但更善於遵循指令的模型。
該領域正在演進:Chatbot Arena 使用即時的人類偏好(難以污染,始終保持最新)。LiveBench 使用經常更新的題目。SEAL 和其他私有基準測試保持測試資料保密。任務特定的評估(SWE-bench 用於真實 GitHub 問題解決,GPQA 用於博士級科學)測試一般基準測試所遺漏的能力。趨勢是走向更像真實世界使用、更少像標準化測試的評估。