Zubnet AIसीखेंWiki › BERT
मॉडल

BERT

इसे भी कहा जाता है: Bidirectional Encoder Representations from Transformers
Google का एक Transformer-आधारित मॉडल (2018) जिसने द्विदिशात्मक प्री-ट्रेनिंग पेश करके NLP में क्रांति ला दी — हर टोकन हर दूसरे टोकन पर ध्यान दे सकता है, जिससे मॉडल को गहरी प्रासंगिक समझ मिलती है। BERT एक encoder-only मॉडल है: यह टेक्स्ट को समझने (classification, search, NER) में उत्कृष्ट है लेकिन GPT या Claude की तरह टेक्स्ट उत्पन्न नहीं कर सकता।

यह क्यों मायने रखता है

BERT आधुनिक युग का सबसे प्रभावशाली NLP पेपर है। इसने साबित किया कि बिना लेबल वाले टेक्स्ट पर प्री-ट्रेनिंग और फिर विशिष्ट कार्यों पर फ़ाइन-ट्यूनिंग हर मौजूदा बेंचमार्क को ध्वस्त कर सकती है। हालाँकि LLMs ने लोकप्रियता चुरा ली है, BERT-शैली के मॉडल अभी भी अधिकांश प्रोडक्शन सर्च इंजन, embedding सिस्टम और classification पाइपलाइन को शक्ति प्रदान करते हैं क्योंकि वे गैर-जनरेटिव कार्यों के लिए LLMs की तुलना में छोटे, तेज़ और सस्ते हैं।

गहन अध्ययन

BERT की ट्रेनिंग दो उद्देश्यों का उपयोग करती है: Masked Language Modeling (MLM) — यादृच्छिक रूप से 15% टोकन को मास्क करें और उन्हें संदर्भ से भविष्यवाणी करें — और Next Sentence Prediction (NSP) — भविष्यवाणी करें कि दो वाक्य क्रमिक हैं या नहीं। MLM द्विदिशात्मक समझ को मजबूर करता है क्योंकि मॉडल को मास्क किए गए शब्दों की भविष्यवाणी करने के लिए बाएँ और दाएँ दोनों संदर्भ का उपयोग करना चाहिए। यह GPT के बाएँ-से-दाएँ दृष्टिकोण से मौलिक रूप से भिन्न है।

BERT अभी भी क्यों मायने रखता है

LLM युग में, BERT-परिवार के मॉडल (RoBERTa, DeBERTa, DistilBERT) प्रोडक्शन NLP की रीढ़ बने हुए हैं। वे LLMs से 100x छोटे (110M–340M पैरामीटर बनाम अरबों), inference के लिए 10x तेज़, और उन कार्यों के लिए अक्सर बेहतर हैं जिनमें जनरेशन की आवश्यकता नहीं होती। RAG और सेमांटिक सर्च में उपयोग किए जाने वाले अधिकांश embedding मॉडल BERT के वंशज हैं। Google Search ने बड़े मॉडलों पर जाने से पहले BERT का व्यापक उपयोग किया था।

BERT बनाम GPT: आर्किटेक्चर का विभाजन

BERT (encoder-only, द्विदिशात्मक) और GPT (decoder-only, बाएँ-से-दाएँ) दो दर्शनों का प्रतिनिधित्व करते हैं। BERT पूरे इनपुट को एक साथ देखता है — समझने के लिए आदर्श। GPT केवल वही देखता है जो पहले आया — उत्पन्न करने के लिए आदर्श। क्षेत्र ने शुरू में सोचा कि encoder-decoder (T5) दोनों को मिलाकर जीतेगा। इसके बजाय, decoder-only (GPT दृष्टिकोण) LLMs के लिए जीता क्योंकि यह अधिक स्पष्ट रूप से स्केल करता है, और आप चतुर प्रॉम्प्टिंग के माध्यम से द्विदिशात्मक समझ का अनुमान लगा सकते हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← Beam Search Black Forest Labs →