मानव मूल्यांकन कई प्रकार का होता है: पूर्ण रेटिंग (इस प्रतिक्रिया को उपयोगिता पर 1–5 स्कोर दें), जोड़ीदार तुलना (इन दो प्रतिक्रियाओं में से कौन सी बेहतर है?), और कार्य-विशिष्ट मूल्यांकन (क्या मॉडल ने इस दस्तावेज़ से सभी संस्थाओं को सही ढंग से निकाला?)। जोड़ीदार तुलना आम तौर पर पूर्ण रेटिंग से अधिक विश्वसनीय है क्योंकि मनुष्य स्कोरिंग की तुलना में तुलना करने में बेहतर हैं — इसीलिए Chatbot Arena जोड़ीदार मतदान का उपयोग करता है।
मानव मूल्यांकन महंगा है: कुशल एनोटेटर, स्पष्ट दिशानिर्देश, गुणवत्ता नियंत्रण, और सांख्यिकीय महत्व के लिए समय और पैसे की आवश्यकता होती है। विविध कार्यों में एक मॉडल का मूल्यांकन करने के लिए हज़ारों मानव निर्णय की आवश्यकता हो सकती है। इसीलिए स्वचालित मेट्रिक्स मौजूद हैं — वे मुफ़्त और तत्काल हैं। व्यावहारिक दृष्टिकोण है विकास के दौरान तेज़ पुनरावृत्ति के लिए स्वचालित मेट्रिक्स का उपयोग करना और मील के पत्थर निर्णयों (रिलीज़, A/B परीक्षण, सुरक्षा ऑडिट) के लिए मानव मूल्यांकन।
एक मध्य मार्ग: कमज़ोर मॉडल के आउटपुट का मूल्यांकन करने के लिए एक मज़बूत LLM का उपयोग करना। यह मानव मूल्यांकन से सस्ता है और अक्सर मानव निर्णयों के साथ अच्छी तरह से सहसंबंधित होता है। लेकिन इसमें ज्ञात पूर्वाग्रह हैं: LLM judges लंबी प्रतिक्रियाओं, अधिक स्वरूपित प्रतिक्रियाओं, और अपनी शैली से मेल खाने वाली प्रतिक्रियाओं को पसंद करते हैं। कई judge मॉडल और मानव रेटिंग के विरुद्ध अंशांकन का उपयोग करने से मदद मिलती है, लेकिन महत्वपूर्ण निर्णयों के लिए LLM-as-judge को मानव मूल्यांकन का पूरक होना चाहिए, प्रतिस्थापन नहीं।