BLEU और ROUGE: परिभाषा और अर्थ — AI विकी

मॉडल आउटपुट की तुलना संदर्भ टेक्स्ट से करके टेक्स्ट जनरेशन गुणवत्ता मूल्यांकित करने के लिए क्लासिक मेट्रिक्स। BLEU (Bilingual Evaluation Understudy) मापता है कि जनरेट किए गए टेक्स्ट में कितने n-gram संदर्भ में दिखाई देते हैं — मूल रूप से मशीन अनुवाद के लिए डिज़ाइन किया गया। ROUGE (Recall-Oriented Understudy for Gisting Evaluation) मापता है कि संदर्भ से कितने n-gram जनरेट किए गए टेक्स्ट में दिखाई देते हैं — सारांशीकरण के लिए डिज़ाइन किया गया।

यह क्यों मायने रखता है

BLEU और ROUGE एक दशक से अधिक समय तक NLP के लिए मानक मूल्यांकन मेट्रिक्स रहे और अभी भी व्यापक रूप से उपयोग किए जाते हैं। उन्हें समझना — और उनकी सीमाओं को — NLP शोध दावों का मूल्यांकन करने और यह समझने में मदद करता है कि क्षेत्र मानव मूल्यांकन और मॉडल-आधारित मूल्यांकन की ओर क्यों बढ़ रहा है। उच्च BLEU स्कोर गुणवत्ता की गारंटी नहीं देता; कम BLEU स्कोर विफलता की गारंटी नहीं देता।

गहन अध्ययन

BLEU सटीकता (precision) गणना करता है: जनरेट किए गए टेक्स्ट में n-grams (1-grams, 2-grams, 3-grams, 4-grams) का कौन सा अंश संदर्भ में भी दिखाई देता है? ROUGE रिकॉल गणना करता है: संदर्भ में n-grams का कौन सा अंश जनरेट किए गए टेक्स्ट में भी दिखाई देता है? BLEU बहुत छोटे आउटपुट को दंडित करता है (संक्षिप्तता दंड)। ROUGE-L निश्चित n-grams के बजाय सबसे लंबे सामान्य उपअनुक्रम का उपयोग करता है, जो शब्द क्रम को अधिक लचीले ढंग से पकड़ता है।

ये त्रुटिपूर्ण क्यों हैं

दोनों मेट्रिक्स संदर्भों के साथ सतही स्तर की समानता को पुरस्कृत करते हैं। एक उत्कृष्ट पैराफ्रेज़ खराब स्कोर करता है (अलग शब्द, समान अर्थ)। एक दोहराव वाला, बेतुका टेक्स्ट जो संयोग से संदर्भ n-grams का पुनः उपयोग करता है, अच्छा स्कोर कर सकता है। उन्हें संदर्भ टेक्स्ट की भी आवश्यकता होती है, जो उन्हें उन कार्यों तक सीमित करती है जहाँ "सही" उत्तर मौजूद हैं। ओपन-एंडेड जनरेशन (रचनात्मक लेखन, बातचीत) के लिए, तुलना करने के लिए कोई एकल सही संदर्भ नहीं है।

आधुनिक विकल्प

क्षेत्र इनकी ओर बढ़ गया है: BERTScore (n-gram मिलान के बजाय embedding समानता का उपयोग करता है, पैराफ्रेज़ को बेहतर पकड़ता है), मॉडल-आधारित मूल्यांकन (आउटपुट गुणवत्ता का मूल्यांकन करने के लिए LLM का उपयोग), और मानव मूल्यांकन (स्वर्ण मानक लेकिन महंगा)। LLM मूल्यांकन के लिए विशेष रूप से, MMLU, HumanEval, और Chatbot Arena जैसे बेंचमार्क ने प्राथमिक तुलना मेट्रिक्स के रूप में BLEU/ROUGE को प्रतिस्थापित कर दिया है। लेकिन BLEU और ROUGE अनुवाद और सारांशीकरण के लिए उपयोगी बने हुए हैं जहाँ संदर्भ तुलना समझदारी रखती है।

BLEU और ROUGE

यह क्यों मायने रखता है

गहन अध्ययन

ये त्रुटिपूर्ण क्यों हैं

आधुनिक विकल्प

संबंधित अवधारणाएँ