Zubnet AIसीखेंWiki › Chatbot Arena
मूल तत्व

Chatbot Arena

इसे भी कहा जाता है: LMSYS Arena, ELO Rankings
एक crowdsourced प्लेटफ़ॉर्म (LMSYS द्वारा) जहाँ उपयोगकर्ता दो अनाम AI मॉडल के साथ अगल-बगल चैट करते हैं और वोट करते हैं कि कौन सी प्रतिक्रिया बेहतर है। परिणामों का उपयोग ELO रेटिंग की गणना के लिए किया जाता है — वही रैंकिंग प्रणाली जो शतरंज में उपयोग होती है — स्वचालित benchmarks के बजाय वास्तविक मानव प्राथमिकताओं पर आधारित मॉडल गुणवत्ता का लगातार अपडेट होने वाला leaderboard बनाता है।

यह क्यों मायने रखता है

Chatbot Arena आज की सबसे भरोसेमंद मॉडल तुलना है क्योंकि यह contamination से प्रतिरोधी है (प्रश्न नए हैं), वास्तविक उपयोगकर्ता प्राथमिकताओं को दर्शाता है (सिंथेटिक benchmarks नहीं), और मॉडल को आमने-सामने रखता है (सापेक्ष तुलना निरपेक्ष स्कोर से अधिक विश्वसनीय है)। जब लोग कहते हैं "Claude कोडिंग के लिए GPT से बेहतर है" या इसके विपरीत, Arena रैंकिंग अक्सर प्रमाण होती है।

गहन अध्ययन

सिस्टम प्रतिस्पर्धी matchmaking की तरह काम करता है: उपयोगकर्ता प्रॉम्प्ट सबमिट करते हैं, दो अनाम मॉडल प्रतिक्रिया देते हैं, और उपयोगकर्ता विजेता चुनता है (या टाई घोषित करता है)। लाखों वोटों में, ELO रेटिंग वास्तविक गुणवत्ता अंतरों को प्रतिबिंबित करने के लिए स्थिर हो जाती है। गुमनामी महत्वपूर्ण है — उपयोगकर्ता ब्रांड नहीं, प्रतिक्रिया का मूल्यांकन करते हैं। नए संस्करण लॉन्च होने पर मॉडल समय-समय पर जोड़े और हटाए जाते हैं।

ELO और इसकी सीमाएँ

ELO रेटिंग प्रति मॉडल एक एकल संख्या प्रदान करती है, जो त्वरित तुलना के लिए उपयोगी है लेकिन महत्वपूर्ण विवरणों को अस्पष्ट करती है। एक मॉडल कोडिंग में बेहतर लेकिन रचनात्मक लेखन में बदतर हो सकता है; ELO इन्हें औसत कर देता है। Arena ने इसे संबोधित करने के लिए श्रेणी-विशिष्ट रेटिंग (कोडिंग, गणित, रचनात्मक लेखन, निर्देश पालन) पेश की। ELO को स्थिर होने के लिए कई वोटों की भी आवश्यकता होती है — एक नए मॉडल को अपनी रेटिंग विश्वसनीय होने से पहले हज़ारों तुलनाओं की आवश्यकता होती है।

Gaming और पूर्वाग्रह

Arena वोटिंग में ज्ञात पूर्वाग्रह हैं: उपयोगकर्ता लंबी प्रतिक्रियाओं, formatting (बुलेट पॉइंट, हेडर) वाली प्रतिक्रियाओं, और अधिक आत्मविश्वासी (भले ही गलत) प्रतिक्रियाओं को पसंद करते हैं। कुछ labs पर वास्तविक गुणवत्ता के बजाय Arena-शैली की प्राथमिकताओं के लिए ऑप्टिमाइज़ करने का संदेह रहा है। LMSYS टीम सांख्यिकीय तरीकों और वोट मात्रा बढ़ाकर इन पूर्वाग्रहों को कम करने का काम करती है, लेकिन ये किसी भी preference-आधारित मूल्यांकन में अंतर्निहित हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← Character.AI Checkpoint →