Embedding Layer: परिभाषा और अर्थ — AI विकी

एक lookup table जो शब्दावली में प्रत्येक टोकन को एक dense वेक्टर (टोकन का embedding) से मैप करती है। जब मॉडल टोकन ID 42 प्राप्त करता है, तो embedding layer एक सीखे गए मैट्रिक्स की पंक्ति 42 लौटाती है। यह वेक्टर उस टोकन का मॉडल का प्रारंभिक प्रतिनिधित्व है — attention और feedforward लेयर्स के माध्यम से सभी बाद की प्रोसेसिंग का शुरुआती बिंदु।

यह क्यों मायने रखता है

Embedding layer वह जगह है जहां टेक्स्ट गणित बन जाता है। हर LLM discrete टोकन (शब्द, सबवर्ड) को continuous वेक्टर में बदलकर शुरू करता है जिन्हें न्यूरल नेटवर्क प्रोसेस कर सकता है। Embedding table छोटे मॉडलों के सबसे बड़े घटकों में से एक भी है — 4096-आयामी embeddings के साथ 128K शब्दावली 512 मिलियन पैरामीटर है। इसे समझने से आपको मॉडल आकारों और शब्दावली डिज़ाइन के बारे में तर्क करने में मदद मिलती है।

गहन अध्ययन

Embedding layer बस आकार (vocab_size, model_dim) का एक मैट्रिक्स E है। टोकन ID i के लिए, embedding E[i] है — एक सरल पंक्ति lookup, कोई गणना नहीं। लेकिन ये embeddings प्रशिक्षण के दौरान सीखे जाते हैं: समान संदर्भों में दिखाई देने वाले टोकन को समान embeddings मिलते हैं। क्लासिक उदाहरण: "king" − "man" + "woman" ≈ "queen" के embeddings, यह दिखाते हुए कि embedding space अर्थगत संबंधों को पकड़ता है।

Tied Embeddings

कई मॉडल embedding मैट्रिक्स को output layer ("unembedding" या "language model head") के साथ साझा (tie) करते हैं। Output layer hidden states को प्रत्येक टोकन के embedding के साथ डॉट प्रोडक्ट की गणना करके शब्दावली संभाव्यताओं में वापस बदलता है। इन लेयर्स को tie करने का अर्थ है कि एक ही embedding इनपुट पर एक टोकन का प्रतिनिधित्व करती है और आउटपुट पर इसकी भविष्यवाणी करती है, पैरामीटर बचाते हुए और अक्सर गुणवत्ता में सुधार करते हुए। अधिकांश आधुनिक LLMs tied embeddings का उपयोग करते हैं।

Positional + Token Embeddings

पूर्ण इनपुट प्रतिनिधित्व आमतौर पर है: token_embedding + positional_encoding। Token embedding पकड़ता है कि टोकन का क्या अर्थ है। Positional encoding पकड़ता है कि यह अनुक्रम में कहां दिखाई देता है। सीखी गई position embeddings (BERT) वाले मॉडलों में, यह स्थिति द्वारा अनुक्रमित एक दूसरी embedding table है। RoPE (LLaMA) वाले मॉडलों में, positional जानकारी अलग तरीके से (Q और K वेक्टर को घुमाकर) इंजेक्ट की जाती है, और embedding layer केवल टोकन पहचान को संभालती है।

Embedding Layer

यह क्यों मायने रखता है

गहन अध्ययन

Tied Embeddings

Positional + Token Embeddings

संबंधित अवधारणाएँ