Word2Vec (Mikolov et al., 2013, Google) या तो संदर्भ से एक शब्द की भविष्यवाणी (CBOW) या एक शब्द से संदर्भ की भविष्यवाणी (Skip-gram) करके प्रशिक्षित करता है। GloVe (Pennington et al., 2014, Stanford) शब्द co-occurrence मैट्रिक्स को factorize करता है। दोनों समान परिणाम उत्पन्न करते हैं: 100–300 आयामी वेक्टर जहां cosine similarity अर्थगत समानता से सहसंबंधित होती है। ये वेक्टर उल्लेखनीय संबंधों को पकड़ते हैं: देश राजधानियों से मैप करते हैं, क्रियाएं काल से मैप करती हैं, और उपमाएं वेक्टर arithmetic के माध्यम से हल करने योग्य हैं।
Word2Vec और GloVe प्रति शब्द एक वेक्टर उत्पन्न करते हैं, संदर्भ की परवाह किए बिना। "Bank" को एक ही embedding मिलती है चाहे इसका अर्थ "river bank" हो या "financial bank"। Contextual embeddings (ELMo, फिर BERT) ने संदर्भ के आधार पर अलग-अलग प्रतिनिधित्व उत्पन्न करके इसे हल किया। आधुनिक sentence embeddings (BGE, E5 जैसे मॉडलों से) और आगे बढ़ते हैं, पूरे वाक्यों को वेक्टर में embedding करते हैं। प्रत्येक पीढ़ी ने पिछली पर सुधार किया, लेकिन मूल विचार — एक वेक्टर के रूप में अर्थ — Word2Vec से शुरू हुआ।
Word2Vec का सबसे बड़ा योगदान एल्गोरिदम नहीं बल्कि यह प्रदर्शन था कि न्यूरल नेटवर्क कच्चे टेक्स्ट से भाषा के उपयोगी प्रतिनिधित्व सीख सकते हैं। इस proof of concept ने word vectors से sentence vectors से contextual embeddings से पूर्ण भाषा मॉडलों तक की प्रगति को प्रेरित किया। हर LLM की embedding layer Word embeddings का एक सीधा वंशज है: discrete टोकन को सीखे गए continuous वेक्टर से मैप करने वाली एक lookup table, बस बहुत बड़े पैमाने पर।