BLEU सटीकता (precision) गणना करता है: जनरेट किए गए टेक्स्ट में n-grams (1-grams, 2-grams, 3-grams, 4-grams) का कौन सा अंश संदर्भ में भी दिखाई देता है? ROUGE रिकॉल गणना करता है: संदर्भ में n-grams का कौन सा अंश जनरेट किए गए टेक्स्ट में भी दिखाई देता है? BLEU बहुत छोटे आउटपुट को दंडित करता है (संक्षिप्तता दंड)। ROUGE-L निश्चित n-grams के बजाय सबसे लंबे सामान्य उपअनुक्रम का उपयोग करता है, जो शब्द क्रम को अधिक लचीले ढंग से पकड़ता है।
दोनों मेट्रिक्स संदर्भों के साथ सतही स्तर की समानता को पुरस्कृत करते हैं। एक उत्कृष्ट पैराफ्रेज़ खराब स्कोर करता है (अलग शब्द, समान अर्थ)। एक दोहराव वाला, बेतुका टेक्स्ट जो संयोग से संदर्भ n-grams का पुनः उपयोग करता है, अच्छा स्कोर कर सकता है। उन्हें संदर्भ टेक्स्ट की भी आवश्यकता होती है, जो उन्हें उन कार्यों तक सीमित करती है जहाँ "सही" उत्तर मौजूद हैं। ओपन-एंडेड जनरेशन (रचनात्मक लेखन, बातचीत) के लिए, तुलना करने के लिए कोई एकल सही संदर्भ नहीं है।
क्षेत्र इनकी ओर बढ़ गया है: BERTScore (n-gram मिलान के बजाय embedding समानता का उपयोग करता है, पैराफ्रेज़ को बेहतर पकड़ता है), मॉडल-आधारित मूल्यांकन (आउटपुट गुणवत्ता का मूल्यांकन करने के लिए LLM का उपयोग), और मानव मूल्यांकन (स्वर्ण मानक लेकिन महंगा)। LLM मूल्यांकन के लिए विशेष रूप से, MMLU, HumanEval, और Chatbot Arena जैसे बेंचमार्क ने प्राथमिक तुलना मेट्रिक्स के रूप में BLEU/ROUGE को प्रतिस्थापित कर दिया है। लेकिन BLEU और ROUGE अनुवाद और सारांशीकरण के लिए उपयोगी बने हुए हैं जहाँ संदर्भ तुलना समझदारी रखती है।