BERT: परिभाषा और अर्थ — AI विकी

Google का एक Transformer-आधारित मॉडल (2018) जिसने द्विदिशात्मक प्री-ट्रेनिंग पेश करके NLP में क्रांति ला दी — हर टोकन हर दूसरे टोकन पर ध्यान दे सकता है, जिससे मॉडल को गहरी प्रासंगिक समझ मिलती है। BERT एक encoder-only मॉडल है: यह टेक्स्ट को समझने (classification, search, NER) में उत्कृष्ट है लेकिन GPT या Claude की तरह टेक्स्ट उत्पन्न नहीं कर सकता।

यह क्यों मायने रखता है

BERT आधुनिक युग का सबसे प्रभावशाली NLP पेपर है। इसने साबित किया कि बिना लेबल वाले टेक्स्ट पर प्री-ट्रेनिंग और फिर विशिष्ट कार्यों पर फ़ाइन-ट्यूनिंग हर मौजूदा बेंचमार्क को ध्वस्त कर सकती है। हालाँकि LLMs ने लोकप्रियता चुरा ली है, BERT-शैली के मॉडल अभी भी अधिकांश प्रोडक्शन सर्च इंजन, embedding सिस्टम और classification पाइपलाइन को शक्ति प्रदान करते हैं क्योंकि वे गैर-जनरेटिव कार्यों के लिए LLMs की तुलना में छोटे, तेज़ और सस्ते हैं।

गहन अध्ययन

BERT की ट्रेनिंग दो उद्देश्यों का उपयोग करती है: Masked Language Modeling (MLM) — यादृच्छिक रूप से 15% टोकन को मास्क करें और उन्हें संदर्भ से भविष्यवाणी करें — और Next Sentence Prediction (NSP) — भविष्यवाणी करें कि दो वाक्य क्रमिक हैं या नहीं। MLM द्विदिशात्मक समझ को मजबूर करता है क्योंकि मॉडल को मास्क किए गए शब्दों की भविष्यवाणी करने के लिए बाएँ और दाएँ दोनों संदर्भ का उपयोग करना चाहिए। यह GPT के बाएँ-से-दाएँ दृष्टिकोण से मौलिक रूप से भिन्न है।

BERT अभी भी क्यों मायने रखता है

LLM युग में, BERT-परिवार के मॉडल (RoBERTa, DeBERTa, DistilBERT) प्रोडक्शन NLP की रीढ़ बने हुए हैं। वे LLMs से 100x छोटे (110M–340M पैरामीटर बनाम अरबों), inference के लिए 10x तेज़, और उन कार्यों के लिए अक्सर बेहतर हैं जिनमें जनरेशन की आवश्यकता नहीं होती। RAG और सेमांटिक सर्च में उपयोग किए जाने वाले अधिकांश embedding मॉडल BERT के वंशज हैं। Google Search ने बड़े मॉडलों पर जाने से पहले BERT का व्यापक उपयोग किया था।

BERT बनाम GPT: आर्किटेक्चर का विभाजन

BERT (encoder-only, द्विदिशात्मक) और GPT (decoder-only, बाएँ-से-दाएँ) दो दर्शनों का प्रतिनिधित्व करते हैं। BERT पूरे इनपुट को एक साथ देखता है — समझने के लिए आदर्श। GPT केवल वही देखता है जो पहले आया — उत्पन्न करने के लिए आदर्श। क्षेत्र ने शुरू में सोचा कि encoder-decoder (T5) दोनों को मिलाकर जीतेगा। इसके बजाय, decoder-only (GPT दृष्टिकोण) LLMs के लिए जीता क्योंकि यह अधिक स्पष्ट रूप से स्केल करता है, और आप चतुर प्रॉम्प्टिंग के माध्यम से द्विदिशात्मक समझ का अनुमान लगा सकते हैं।

BERT

यह क्यों मायने रखता है

गहन अध्ययन

BERT अभी भी क्यों मायने रखता है

BERT बनाम GPT: आर्किटेक्चर का विभाजन

संबंधित अवधारणाएँ