AI 基準測試：定義與含義 — AI 維基

用於衡量和比較 AI 模型能力的標準化測試。MMLU 測試 57 個學術科目的知識。HumanEval 測試程式碼生成。ARC 測試科學推理。HellaSwag 測試常識推理。GSM8K 測試數學。基準分數為比較模型提供了通用語言，儘管它們有顯著的局限性。

為什麼重要

基準測試是產業的計分方式。當 Anthropic 說 Claude 在 MMLU 上得分 X%、在 HumanEval 上得分 Y% 時，這些數字只有在你知道基準測試測試什麼、如何評分以及它們的局限性是什麼時才有意義。理解基準測試有助於你看穿行銷聲稱，並評估哪個模型對你的特定使用案例真正最好。

深度解析

關鍵基準測試：MMLU（大規模多任務語言理解）— 涵蓋 STEM 到人文學科 57 個科目的 14,042 道選擇題。HumanEval — 164 個測試 Python 函數生成的程式設計問題。ARC（AI2 推理挑戰）— 需要推理的科學考試題目。HellaSwag — 測試常識知識的句子完成題。GSM8K — 8,500 道小學數學文字題。每個測試不同的能力。

為什麼基準測試有問題

幾個問題：污染（測試題目出現在訓練資料中，虛增分數）、飽和（當所有模型都得分 95% 以上時，基準測試不再有區分力）、遊戲化（專門為最大化基準分數而訓練，並未真正提高能力），以及覆蓋面窄（基準測試測試可測試的東西，而非使用者真正關心的東西）。一個在 MMLU 上得分 90% 的模型在實際幫助使用者方面可能不如一個得分 80% 但更善於遵循指令的模型。

超越靜態基準測試

該領域正在演進：Chatbot Arena 使用即時的人類偏好（難以污染，始終保持最新）。LiveBench 使用經常更新的題目。SEAL 和其他私有基準測試保持測試資料保密。任務特定的評估（SWE-bench 用於真實 GitHub 問題解決，GPQA 用於博士級科學）測試一般基準測試所遺漏的能力。趨勢是走向更像真實世界使用、更少像標準化測試的評估。

AI 基準測試

為什麼重要

深度解析

為什麼基準測試有問題

超越靜態基準測試

相關概念