सिस्टम प्रतिस्पर्धी matchmaking की तरह काम करता है: उपयोगकर्ता प्रॉम्प्ट सबमिट करते हैं, दो अनाम मॉडल प्रतिक्रिया देते हैं, और उपयोगकर्ता विजेता चुनता है (या टाई घोषित करता है)। लाखों वोटों में, ELO रेटिंग वास्तविक गुणवत्ता अंतरों को प्रतिबिंबित करने के लिए स्थिर हो जाती है। गुमनामी महत्वपूर्ण है — उपयोगकर्ता ब्रांड नहीं, प्रतिक्रिया का मूल्यांकन करते हैं। नए संस्करण लॉन्च होने पर मॉडल समय-समय पर जोड़े और हटाए जाते हैं।
ELO रेटिंग प्रति मॉडल एक एकल संख्या प्रदान करती है, जो त्वरित तुलना के लिए उपयोगी है लेकिन महत्वपूर्ण विवरणों को अस्पष्ट करती है। एक मॉडल कोडिंग में बेहतर लेकिन रचनात्मक लेखन में बदतर हो सकता है; ELO इन्हें औसत कर देता है। Arena ने इसे संबोधित करने के लिए श्रेणी-विशिष्ट रेटिंग (कोडिंग, गणित, रचनात्मक लेखन, निर्देश पालन) पेश की। ELO को स्थिर होने के लिए कई वोटों की भी आवश्यकता होती है — एक नए मॉडल को अपनी रेटिंग विश्वसनीय होने से पहले हज़ारों तुलनाओं की आवश्यकता होती है।
Arena वोटिंग में ज्ञात पूर्वाग्रह हैं: उपयोगकर्ता लंबी प्रतिक्रियाओं, formatting (बुलेट पॉइंट, हेडर) वाली प्रतिक्रियाओं, और अधिक आत्मविश्वासी (भले ही गलत) प्रतिक्रियाओं को पसंद करते हैं। कुछ labs पर वास्तविक गुणवत्ता के बजाय Arena-शैली की प्राथमिकताओं के लिए ऑप्टिमाइज़ करने का संदेह रहा है। LMSYS टीम सांख्यिकीय तरीकों और वोट मात्रा बढ़ाकर इन पूर्वाग्रहों को कम करने का काम करती है, लेकिन ये किसी भी preference-आधारित मूल्यांकन में अंतर्निहित हैं।