人工評估：定義與含義 — AI 維基

通過讓人類直接判斷來評估 AI 輸出品質。人類評估流暢性、準確性、有用性、安全性，以及輸出是否真正符合要求。儘管昂貴且緩慢，人工評估仍然是黃金標準，因為自動化指標往往忽略了對使用者真正重要的東西。

為什麼重要

每個自動化指標都是人類判斷的代理，而每個代理都有盲點。BLEU 無法偵測事實錯誤。困惑度無法衡量有用性。即使 LLM 作為評判者的方法也會繼承偏差（例如偏好冗長的回應）。當風險很高時 — 發布產品、比較模型版本、評估安全性 — 人工評估是不可替代的。

深度解析

人工評估有幾種形式：絕對評分（將此回應的有用性評為 1–5 分）、成對比較（這兩個回應中哪個更好？），以及任務特定評估（模型是否正確提取了此文件中的所有實體？）。成對比較通常比絕對評分更可靠，因為人類更擅長比較而非評分 — 這就是為什麼 Chatbot Arena 使用成對投票。

成本問題

人工評估是昂貴的：技術嫻熟的標註者、清晰的指南、品質控制和統計顯著性都需要時間和金錢。評估跨多元任務的模型可能需要數千次人類判斷。這就是自動化指標存在的原因 — 它們免費且即時。務實的做法是在開發期間使用自動化指標進行快速迭代，在里程碑決策（發布、A/B 測試、安全審計）時使用人工評估。

LLM 作為評判者

一種折衷方案：使用強大的 LLM 來評估較弱模型的輸出。這比人工評估更便宜，且通常與人類判斷具有良好的相關性。但它有已知的偏差：LLM 評判者傾向偏好更長的回應、更多格式化的回應，以及與其自身風格匹配的回應。使用多個評判模型並對照人類評分進行校準有所幫助，但 LLM 作為評判者應該是人工評估的補充，而非取代，用於重要的決策。

人工評估

為什麼重要

深度解析

成本問題

LLM 作為評判者

相關概念