Zubnet AIसीखेंWiki › Masked Language Modeling
प्रशिक्षण

Masked Language Modeling

इसे भी कहा जाता है: MLM, Masked LM, Cloze Task
एक self-supervised प्रशिक्षण उद्देश्य जहां इनपुट में यादृच्छिक टोकन को [MASK] टोकन से बदल दिया जाता है, और मॉडल को संदर्भ से मूल टोकन की भविष्यवाणी करनी चाहिए। BERT ने MLM को लोकप्रिय बनाया: 15% टोकन को mask करें, मूल शब्दों की भविष्यवाणी करने के लिए बाएं और दाएं दोनों संदर्भ को देखने के लिए bidirectional attention का उपयोग करें। यह शक्तिशाली टेक्स्ट समझ मॉडल बनाता है (टेक्स्ट जनरेशन मॉडल के विपरीत)।

यह क्यों मायने रखता है

MLM वह प्रशिक्षण उद्देश्य है जिसने BERT और encoder मॉडलों का पूरा परिवार बनाया जो अभी भी अधिकांश प्रोडक्शन search, classification, और embedding सिस्टम को शक्ति प्रदान करता है। MLM बनाम causal language modeling (next-token prediction) को समझना समझ मॉडल (BERT) और जनरेशन मॉडल (GPT) के बीच मूलभूत विभाजन की व्याख्या करता है — और क्यों प्रत्येक अलग-अलग कार्यों में उत्कृष्ट है।

गहन अध्ययन

प्रक्रिया: एक टेक्स्ट अनुक्रम लें, 15% स्थितियों को यादृच्छिक रूप से चुनें। उन स्थितियों के लिए: 80% को [MASK] से बदला जाता है, 10% को एक यादृच्छिक टोकन से बदला जाता है, 10% को अपरिवर्तित रखा जाता है। मॉडल को प्रत्येक चयनित स्थिति पर मूल टोकन की भविष्यवाणी करनी चाहिए। 80/10/10 विभाजन मॉडल को केवल [MASK] टोकन पर ध्यान देना सीखने से रोकता है, जो वास्तविक उपयोग के दौरान प्रकट नहीं होते।

Bidirectional संदर्भ

Causal LM पर MLM का मुख्य लाभ: भविष्यवाणी करते समय मॉडल बाएं और दाएं दोनों संदर्भ देखता है। "The [MASK] sat on the mat" वाक्य के लिए, मॉडल "cat" की भविष्यवाणी करने के लिए "The" (बायां संदर्भ) और "sat on the mat" (दायां संदर्भ) दोनों का उपयोग करता है। यह bidirectional समझ इसलिए है कि BERT-शैली के मॉडल समझ के कार्यों के लिए बाएं-से-दाएं मॉडलों की तुलना में समृद्ध प्रतिनिधित्व उत्पन्न करते हैं।

MLM बनाम Causal LM

ट्रेड-ऑफ़: MLM उत्कृष्ट समझ बनाता है (classification, search, NER के लिए अच्छा) लेकिन धाराप्रवाह टेक्स्ट उत्पन्न नहीं कर सकता (masked टोकन की भविष्यवाणी करना अनुक्रम उत्पन्न करने के समान नहीं है)। Causal LM (बाएं से दाएं अगले टोकन की भविष्यवाणी) धाराप्रवाह उत्पन्न करता है लेकिन कम गहराई से समझता है (केवल बायां संदर्भ देखता है)। इस विभाजन ने NLP में encoder-बनाम-decoder विचलन को प्रेरित किया। आधुनिक LLMs सभी causal (decoder-only) हैं क्योंकि जनरेशन व्यावसायिक रूप से अधिक मूल्यवान है, लेकिन MLM-प्रशिक्षित मॉडल search और classification की रीढ़ बने हुए हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← Mamba MCP →