Embedding layer बस आकार (vocab_size, model_dim) का एक मैट्रिक्स E है। टोकन ID i के लिए, embedding E[i] है — एक सरल पंक्ति lookup, कोई गणना नहीं। लेकिन ये embeddings प्रशिक्षण के दौरान सीखे जाते हैं: समान संदर्भों में दिखाई देने वाले टोकन को समान embeddings मिलते हैं। क्लासिक उदाहरण: "king" − "man" + "woman" ≈ "queen" के embeddings, यह दिखाते हुए कि embedding space अर्थगत संबंधों को पकड़ता है।
कई मॉडल embedding मैट्रिक्स को output layer ("unembedding" या "language model head") के साथ साझा (tie) करते हैं। Output layer hidden states को प्रत्येक टोकन के embedding के साथ डॉट प्रोडक्ट की गणना करके शब्दावली संभाव्यताओं में वापस बदलता है। इन लेयर्स को tie करने का अर्थ है कि एक ही embedding इनपुट पर एक टोकन का प्रतिनिधित्व करती है और आउटपुट पर इसकी भविष्यवाणी करती है, पैरामीटर बचाते हुए और अक्सर गुणवत्ता में सुधार करते हुए। अधिकांश आधुनिक LLMs tied embeddings का उपयोग करते हैं।
पूर्ण इनपुट प्रतिनिधित्व आमतौर पर है: token_embedding + positional_encoding। Token embedding पकड़ता है कि टोकन का क्या अर्थ है। Positional encoding पकड़ता है कि यह अनुक्रम में कहां दिखाई देता है। सीखी गई position embeddings (BERT) वाले मॉडलों में, यह स्थिति द्वारा अनुक्रमित एक दूसरी embedding table है। RoPE (LLaMA) वाले मॉडलों में, positional जानकारी अलग तरीके से (Q और K वेक्टर को घुमाकर) इंजेक्ट की जाती है, और embedding layer केवल टोकन पहचान को संभालती है।