通過讓人類直接判斷來評估 AI 輸出品質。人類評估流暢性、準確性、有用性、安全性,以及輸出是否真正符合要求。儘管昂貴且緩慢,人工評估仍然是黃金標準,因為自動化指標往往忽略了對使用者真正重要的東西。
每個自動化指標都是人類判斷的代理,而每個代理都有盲點。BLEU 無法偵測事實錯誤。困惑度無法衡量有用性。即使 LLM 作為評判者的方法也會繼承偏差(例如偏好冗長的回應)。當風險很高時 — 發布產品、比較模型版本、評估安全性 — 人工評估是不可替代的。
人工評估有幾種形式:絕對評分(將此回應的有用性評為 1–5 分)、成對比較(這兩個回應中哪個更好?),以及任務特定評估(模型是否正確提取了此文件中的所有實體?)。成對比較通常比絕對評分更可靠,因為人類更擅長比較而非評分 — 這就是為什麼 Chatbot Arena 使用成對投票。
人工評估是昂貴的:技術嫻熟的標註者、清晰的指南、品質控制和統計顯著性都需要時間和金錢。評估跨多元任務的模型可能需要數千次人類判斷。這就是自動化指標存在的原因 — 它們免費且即時。務實的做法是在開發期間使用自動化指標進行快速迭代,在里程碑決策(發布、A/B 測試、安全審計)時使用人工評估。
一種折衷方案:使用強大的 LLM 來評估較弱模型的輸出。這比人工評估更便宜,且通常與人類判斷具有良好的相關性。但它有已知的偏差:LLM 評判者傾向偏好更長的回應、更多格式化的回應,以及與其自身風格匹配的回應。使用多個評判模型並對照人類評分進行校準有所幫助,但 LLM 作為評判者應該是人工評估的補充,而非取代,用於重要的決策。