Masked Language Modeling: परिभाषा और अर्थ — AI विकी

एक self-supervised प्रशिक्षण उद्देश्य जहां इनपुट में यादृच्छिक टोकन को [MASK] टोकन से बदल दिया जाता है, और मॉडल को संदर्भ से मूल टोकन की भविष्यवाणी करनी चाहिए। BERT ने MLM को लोकप्रिय बनाया: 15% टोकन को mask करें, मूल शब्दों की भविष्यवाणी करने के लिए बाएं और दाएं दोनों संदर्भ को देखने के लिए bidirectional attention का उपयोग करें। यह शक्तिशाली टेक्स्ट समझ मॉडल बनाता है (टेक्स्ट जनरेशन मॉडल के विपरीत)।

यह क्यों मायने रखता है

MLM वह प्रशिक्षण उद्देश्य है जिसने BERT और encoder मॉडलों का पूरा परिवार बनाया जो अभी भी अधिकांश प्रोडक्शन search, classification, और embedding सिस्टम को शक्ति प्रदान करता है। MLM बनाम causal language modeling (next-token prediction) को समझना समझ मॉडल (BERT) और जनरेशन मॉडल (GPT) के बीच मूलभूत विभाजन की व्याख्या करता है — और क्यों प्रत्येक अलग-अलग कार्यों में उत्कृष्ट है।

गहन अध्ययन

प्रक्रिया: एक टेक्स्ट अनुक्रम लें, 15% स्थितियों को यादृच्छिक रूप से चुनें। उन स्थितियों के लिए: 80% को [MASK] से बदला जाता है, 10% को एक यादृच्छिक टोकन से बदला जाता है, 10% को अपरिवर्तित रखा जाता है। मॉडल को प्रत्येक चयनित स्थिति पर मूल टोकन की भविष्यवाणी करनी चाहिए। 80/10/10 विभाजन मॉडल को केवल [MASK] टोकन पर ध्यान देना सीखने से रोकता है, जो वास्तविक उपयोग के दौरान प्रकट नहीं होते।

Bidirectional संदर्भ

Causal LM पर MLM का मुख्य लाभ: भविष्यवाणी करते समय मॉडल बाएं और दाएं दोनों संदर्भ देखता है। "The [MASK] sat on the mat" वाक्य के लिए, मॉडल "cat" की भविष्यवाणी करने के लिए "The" (बायां संदर्भ) और "sat on the mat" (दायां संदर्भ) दोनों का उपयोग करता है। यह bidirectional समझ इसलिए है कि BERT-शैली के मॉडल समझ के कार्यों के लिए बाएं-से-दाएं मॉडलों की तुलना में समृद्ध प्रतिनिधित्व उत्पन्न करते हैं।

MLM बनाम Causal LM

ट्रेड-ऑफ़: MLM उत्कृष्ट समझ बनाता है (classification, search, NER के लिए अच्छा) लेकिन धाराप्रवाह टेक्स्ट उत्पन्न नहीं कर सकता (masked टोकन की भविष्यवाणी करना अनुक्रम उत्पन्न करने के समान नहीं है)। Causal LM (बाएं से दाएं अगले टोकन की भविष्यवाणी) धाराप्रवाह उत्पन्न करता है लेकिन कम गहराई से समझता है (केवल बायां संदर्भ देखता है)। इस विभाजन ने NLP में encoder-बनाम-decoder विचलन को प्रेरित किया। आधुनिक LLMs सभी causal (decoder-only) हैं क्योंकि जनरेशन व्यावसायिक रूप से अधिक मूल्यवान है, लेकिन MLM-प्रशिक्षित मॉडल search और classification की रीढ़ बने हुए हैं।

Masked Language Modeling

यह क्यों मायने रखता है

गहन अध्ययन

Bidirectional संदर्भ

MLM बनाम Causal LM

संबंधित अवधारणाएँ