Zubnet AIसीखेंWiki › Contamination
मूल तत्व

Contamination

इसे भी कहा जाता है: Data Contamination, Benchmark Leaking
जब benchmark परीक्षण डेटा किसी मॉडल के प्रशिक्षण डेटा में प्रकट होता है, वास्तविक क्षमता को प्रतिबिंबित किए बिना उसके स्कोर को बढ़ाता है। यदि किसी मॉडल ने प्रशिक्षण के दौरान परीक्षण प्रश्नों को देखकर "उत्तर कुंजी का अध्ययन" किया है, तो उसका benchmark प्रदर्शन अर्थहीन है। Contamination एक बढ़ती समस्या है क्योंकि प्रशिक्षण datasets बड़े होते जाते हैं और इंटरनेट का अधिक हिस्सा स्क्रैप करते हैं, जहाँ benchmark डेटा अक्सर प्रकाशित होता है।

यह क्यों मायने रखता है

Contamination उस संपूर्ण benchmark प्रणाली को कमज़ोर करता है जिसका उपयोग AI उद्योग मॉडल की तुलना करने के लिए करता है। एक मॉडल जो MMLU पर 90% स्कोर करता है क्योंकि उसने उत्तर याद कर लिए हैं, 80% स्कोर करने वाले उस मॉडल से अधिक बुद्धिमान नहीं है जिसने उन्हें कभी नहीं देखा। जैसे-जैसे अधिक benchmarks प्रशिक्षण डेटा में लीक होते हैं, समुदाय को लगातार नए benchmarks बनाने के लिए मजबूर होना पड़ता है, और निजी held-out मूल्यांकन सार्वजनिक leaderboards से अधिक महत्वपूर्ण हो जाते हैं।

गहन अध्ययन

Contamination कई तरीकों से होता है। प्रत्यक्ष समावेशन: benchmark डेटा प्रशिक्षण कॉर्पस में शब्दशः प्रकट होता है (अक्सर benchmark प्रश्नों को होस्ट करने वाली साइटों से वेब स्क्रैपिंग के माध्यम से)। अप्रत्यक्ष रिसाव: प्रशिक्षण डेटा में benchmark प्रश्नों, मॉडल-जनित समाधानों, या व्युत्पन्न सामग्री के बारे में चर्चाएँ शामिल हैं। अस्थायी रिसाव: एक मॉडल का "नए" benchmark पर मूल्यांकन किया जाता है, लेकिन प्रशिक्षण डेटा कटऑफ़ में उस benchmark के प्रारंभिक संस्करण शामिल हैं।

पता लगाना कठिन है

Contamination का पता लगाना सीधा नहीं है। आप प्रशिक्षण डेटा में परीक्षण प्रश्नों के सटीक मिलान खोज सकते हैं, लेकिन paraphrased या आंशिक मिलान पकड़ना कठिन है। कुछ शोधकर्ता membership inference attacks का उपयोग करते हैं — यह जाँचते हुए कि क्या परीक्षण उदाहरणों पर मॉडल का आत्मविश्वास समान अनदेखे उदाहरणों की तुलना में संदेहास्पद रूप से अधिक है। लेकिन इन विधियों में false positives और negatives होते हैं, और प्रशिक्षण डेटा तक पहुँच अक्सर सीमित होती है।

प्रतिक्रिया

समुदाय कई तरीकों से प्रतिक्रिया दे रहा है: निजी held-out benchmarks जो प्रकाशित नहीं किए जाते (जैसे AI labs के कुछ आंतरिक मूल्यांकन), गतिशील benchmarks जो नियमित रूप से नए प्रश्न उत्पन्न करते हैं, Chatbot Arena (जो स्थैतिक परीक्षण सेट के बजाय वास्तविक उपयोगकर्ता प्राथमिकताओं का उपयोग करता है), और मॉडल मूल्यांकन रिपोर्ट के एक आवश्यक भाग के रूप में contamination विश्लेषण। मानव मूल्यांकन और लाइव benchmarks की ओर बदलाव आंशिक रूप से contamination समस्या से प्रेरित है।

संबंधित अवधारणाएँ

← सभी शब्द
← Constitutional AI Context Length Extension →