BERT की ट्रेनिंग दो उद्देश्यों का उपयोग करती है: Masked Language Modeling (MLM) — यादृच्छिक रूप से 15% टोकन को मास्क करें और उन्हें संदर्भ से भविष्यवाणी करें — और Next Sentence Prediction (NSP) — भविष्यवाणी करें कि दो वाक्य क्रमिक हैं या नहीं। MLM द्विदिशात्मक समझ को मजबूर करता है क्योंकि मॉडल को मास्क किए गए शब्दों की भविष्यवाणी करने के लिए बाएँ और दाएँ दोनों संदर्भ का उपयोग करना चाहिए। यह GPT के बाएँ-से-दाएँ दृष्टिकोण से मौलिक रूप से भिन्न है।
LLM युग में, BERT-परिवार के मॉडल (RoBERTa, DeBERTa, DistilBERT) प्रोडक्शन NLP की रीढ़ बने हुए हैं। वे LLMs से 100x छोटे (110M–340M पैरामीटर बनाम अरबों), inference के लिए 10x तेज़, और उन कार्यों के लिए अक्सर बेहतर हैं जिनमें जनरेशन की आवश्यकता नहीं होती। RAG और सेमांटिक सर्च में उपयोग किए जाने वाले अधिकांश embedding मॉडल BERT के वंशज हैं। Google Search ने बड़े मॉडलों पर जाने से पहले BERT का व्यापक उपयोग किया था।
BERT (encoder-only, द्विदिशात्मक) और GPT (decoder-only, बाएँ-से-दाएँ) दो दर्शनों का प्रतिनिधित्व करते हैं। BERT पूरे इनपुट को एक साथ देखता है — समझने के लिए आदर्श। GPT केवल वही देखता है जो पहले आया — उत्पन्न करने के लिए आदर्श। क्षेत्र ने शुरू में सोचा कि encoder-decoder (T5) दोनों को मिलाकर जीतेगा। इसके बजाय, decoder-only (GPT दृष्टिकोण) LLMs के लिए जीता क्योंकि यह अधिक स्पष्ट रूप से स्केल करता है, और आप चतुर प्रॉम्प्टिंग के माध्यम से द्विदिशात्मक समझ का अनुमान लगा सकते हैं।