Word Embedding: परिभाषा और अर्थ — AI विकी

शब्दों के dense वेक्टर प्रतिनिधित्व जहां समान अर्थ वाले शब्दों में समान वेक्टर होते हैं। Word2Vec (2013) और GloVe (2014) ने इसका नेतृत्व किया: वे शब्द co-occurrence पैटर्न पर प्रशिक्षण लेकर ऐसे वेक्टर उत्पन्न करते हैं जहां "king − man + woman ≈ queen"। Word embeddings आधुनिक contextual embeddings (BERT, sentence-transformers) के पूर्ववर्ती थे और यह समझने के लिए मूलभूत बने हुए हैं कि न्यूरल नेटवर्क भाषा को कैसे दर्शाते हैं।

यह क्यों मायने रखता है

Word embeddings वह breakthrough थे जिसने neural NLP को व्यावहारिक बनाया। उनसे पहले, शब्दों को one-hot वेक्टर (समानता की कोई अवधारणा नहीं) के रूप में दर्शाया जाता था। Word embeddings ने साबित किया कि distributed प्रतिनिधित्व अर्थ, उपमा, और अर्थगत संबंधों को पकड़ सकते हैं। यह अंतर्दृष्टि — discrete प्रतीकों को सीखे गए continuous वेक्टर के रूप में दर्शाना — सभी आधुनिक भाषा मॉडलों की नींव है।

गहन अध्ययन

Word2Vec (Mikolov et al., 2013, Google) या तो संदर्भ से एक शब्द की भविष्यवाणी (CBOW) या एक शब्द से संदर्भ की भविष्यवाणी (Skip-gram) करके प्रशिक्षित करता है। GloVe (Pennington et al., 2014, Stanford) शब्द co-occurrence मैट्रिक्स को factorize करता है। दोनों समान परिणाम उत्पन्न करते हैं: 100–300 आयामी वेक्टर जहां cosine similarity अर्थगत समानता से सहसंबंधित होती है। ये वेक्टर उल्लेखनीय संबंधों को पकड़ते हैं: देश राजधानियों से मैप करते हैं, क्रियाएं काल से मैप करती हैं, और उपमाएं वेक्टर arithmetic के माध्यम से हल करने योग्य हैं।

Static बनाम Contextual

Word2Vec और GloVe प्रति शब्द एक वेक्टर उत्पन्न करते हैं, संदर्भ की परवाह किए बिना। "Bank" को एक ही embedding मिलती है चाहे इसका अर्थ "river bank" हो या "financial bank"। Contextual embeddings (ELMo, फिर BERT) ने संदर्भ के आधार पर अलग-अलग प्रतिनिधित्व उत्पन्न करके इसे हल किया। आधुनिक sentence embeddings (BGE, E5 जैसे मॉडलों से) और आगे बढ़ते हैं, पूरे वाक्यों को वेक्टर में embedding करते हैं। प्रत्येक पीढ़ी ने पिछली पर सुधार किया, लेकिन मूल विचार — एक वेक्टर के रूप में अर्थ — Word2Vec से शुरू हुआ।

विरासत

Word2Vec का सबसे बड़ा योगदान एल्गोरिदम नहीं बल्कि यह प्रदर्शन था कि न्यूरल नेटवर्क कच्चे टेक्स्ट से भाषा के उपयोगी प्रतिनिधित्व सीख सकते हैं। इस proof of concept ने word vectors से sentence vectors से contextual embeddings से पूर्ण भाषा मॉडलों तक की प्रगति को प्रेरित किया। हर LLM की embedding layer Word embeddings का एक सीधा वंशज है: discrete टोकन को सीखे गए continuous वेक्टर से मैप करने वाली एक lookup table, बस बहुत बड़े पैमाने पर।

Word Embedding

यह क्यों मायने रखता है

गहन अध्ययन

Static बनाम Contextual

विरासत

संबंधित अवधारणाएँ