प्रक्रिया: एक टेक्स्ट अनुक्रम लें, 15% स्थितियों को यादृच्छिक रूप से चुनें। उन स्थितियों के लिए: 80% को [MASK] से बदला जाता है, 10% को एक यादृच्छिक टोकन से बदला जाता है, 10% को अपरिवर्तित रखा जाता है। मॉडल को प्रत्येक चयनित स्थिति पर मूल टोकन की भविष्यवाणी करनी चाहिए। 80/10/10 विभाजन मॉडल को केवल [MASK] टोकन पर ध्यान देना सीखने से रोकता है, जो वास्तविक उपयोग के दौरान प्रकट नहीं होते।
Causal LM पर MLM का मुख्य लाभ: भविष्यवाणी करते समय मॉडल बाएं और दाएं दोनों संदर्भ देखता है। "The [MASK] sat on the mat" वाक्य के लिए, मॉडल "cat" की भविष्यवाणी करने के लिए "The" (बायां संदर्भ) और "sat on the mat" (दायां संदर्भ) दोनों का उपयोग करता है। यह bidirectional समझ इसलिए है कि BERT-शैली के मॉडल समझ के कार्यों के लिए बाएं-से-दाएं मॉडलों की तुलना में समृद्ध प्रतिनिधित्व उत्पन्न करते हैं।
ट्रेड-ऑफ़: MLM उत्कृष्ट समझ बनाता है (classification, search, NER के लिए अच्छा) लेकिन धाराप्रवाह टेक्स्ट उत्पन्न नहीं कर सकता (masked टोकन की भविष्यवाणी करना अनुक्रम उत्पन्न करने के समान नहीं है)। Causal LM (बाएं से दाएं अगले टोकन की भविष्यवाणी) धाराप्रवाह उत्पन्न करता है लेकिन कम गहराई से समझता है (केवल बायां संदर्भ देखता है)। इस विभाजन ने NLP में encoder-बनाम-decoder विचलन को प्रेरित किया। आधुनिक LLMs सभी causal (decoder-only) हैं क्योंकि जनरेशन व्यावसायिक रूप से अधिक मूल्यवान है, लेकिन MLM-प्रशिक्षित मॉडल search और classification की रीढ़ बने हुए हैं।