एक Transformer block में दो मुख्य घटक एक साथ stacked होते हैं: एक multi-head self-attention layer और एक feedforward network (FFN), प्रत्येक layer normalization और एक residual connection में लपेटा हुआ। Attention layer सूचना routing संभालती है — यह तय करती है कि कौन से tokens को कौन से अन्य tokens को प्रभावित करना चाहिए। FFN सूचना processing संभालती है — यह एक nonlinearity के साथ एक wider hidden layer (आम तौर पर मॉडल dimension का 4x) के माध्यम से हर token के representation को स्वतंत्र रूप से बदलती है। मॉडल के अधिकांश parameters FFN layers में रहते हैं, और शोध सुझाता है कि यही वह जगह है जहाँ तथ्यात्मक ज्ञान संग्रहीत होता है, जबकि attention layers relational और syntactic patterns सीखती हैं। इन में से 32 से 128 blocks stack करें, और आपको एक आधुनिक LLM मिलता है।
मूल 2017 "Attention Is All You Need" paper ने machine translation के लिए एक encoder-decoder आर्किटेक्चर का वर्णन किया। Encoder इनपुट sequence को प्रोसेस करता है और contextualized representations उत्पन्न करता है; decoder आउटपुट sequence को एक समय में एक token उत्पन्न करता है, अपने पिछले आउटपुट और cross-attention के माध्यम से encoder के आउटपुट दोनों पर attending करता है। लेकिन क्षेत्र जल्दी से तीन variants में diverge हुआ। केवल-encoder मॉडल (BERT जैसे) पूर्ण इनपुट को द्विदिशात्मक रूप से प्रोसेस करते हैं और classification तथा retrieval के लिए शानदार हैं। केवल-decoder मॉडल (GPT, Claude, Llama, Mistral) causal masking का उपयोग करते हैं ताकि हर token केवल पिछले tokens पर attend कर सके — यही वह है जो आप text generation के लिए चाहते हैं। Encoder-decoder मॉडल (T5, BART) ने मूल आर्किटेक्चर रखा और translation तथा summarization के लिए अच्छा काम करते हैं। केवल-decoder variant ने scaling दौड़ जीती क्योंकि यह प्रशिक्षित करना सरल है और स्वाभाविक रूप से autoregressive generation का समर्थन करता है।
Scaling laws वही हैं जिन्होंने Transformer को एक आर्किटेक्चर से एक उद्योग में बदल दिया। Chinchilla paper (Hoffmann et al., 2022) ने दिखाया कि मॉडल प्रदर्शन compute, डेटा, और parameters के एक power law के रूप में पूर्वानुमेय रूप से scale होता है। इसका अर्थ है कि आप एक मॉडल को प्रशिक्षित करने से पहले पूर्वानुमान लगा सकते हैं कि यह कितना अच्छा होगा, जिसने LLM विकास को निवेश पर अपेक्षाकृत पूर्वानुमेय रिटर्न के साथ एक इंजीनियरिंग समस्या में बदल दिया। वह पूर्वानुमेयता ही है जिसने GPU clusters में अरबों डॉलर को justify किया। इसने यह भी दिखाया कि उस समय के अधिकांश मॉडल कम-प्रशिक्षित थे — एक निश्चित compute बजट दिए जाने पर, आप कम पर प्रशिक्षित एक बड़े मॉडल की तुलना में अधिक डेटा पर प्रशिक्षित एक छोटे मॉडल से बेहतर परिणाम प्राप्त करते हैं। इस अंतर्दृष्टि ने पूरे उद्योग को नया आकार दिया: Llama, Mistral, और Gemma सभी पहले के मॉडलों की तुलना में अपने parameter count के सापेक्ष कहीं अधिक tokens पर प्रशिक्षित होते हैं।
आधुनिक Transformers मूल paper से significantly diverged हो गए हैं। Pre-norm (attention/FFN के बाद के बजाय पहले layer normalization लागू करना) अब मानक है क्योंकि यह बड़े पैमाने पर प्रशिक्षण को स्थिर करता है। RMSNorm ने दक्षता के लिए LayerNorm की जगह ली। Rotary Position Embeddings (RoPE) ने सीखे या sinusoidal position encodings की जगह ली क्योंकि वे मॉडल को प्रशिक्षित किए गए लंबे sequences के लिए बेहतर सामान्यीकृत होते हैं। SwiGLU activation ने बेहतर प्रदर्शन के लिए FFN में ReLU की जगह ली। Grouped-Query Attention (GQA) KV cache को shrink करने के लिए query heads में key-value heads साझा करती है। Flash Attention ने math को बदले बिना attention computation को मेमोरी-कुशल बनाने के लिए restructure किया। इनमें से कोई भी मौलिक आर्किटेक्चर को नहीं बदलता, लेकिन एक साथ वे वर्षों के इंजीनियरिंग iteration का प्रतिनिधित्व करते हैं जो बड़े मॉडलों को प्रशिक्षित और serve करना व्यावहारिक बनाता है।
Transformers की सबसे बड़ी व्यावहारिक सीमा sequence लंबाई के संबंध में attention की द्विघात लागत है। हर token को हर पिछले token पर attend करना चाहिए, इसलिए 128K-token context को प्रोसेस करने के लिए 4K context की तुलना में परिमाण के क्रम अधिक compute की आवश्यकता होती है। यह लंबे-context API calls की लागत को बढ़ाता है, और यही कारण है कि SSMs और hybrid architectures जैसे विकल्प सक्रिय रूप से शोधित हैं। KV cache — सभी पिछले tokens से संग्रहीत key-value pairs जिन्हें generation के दौरान मेमोरी में रखा जाना चाहिए — दूसरी प्रमुख bottleneck है। लंबे sequences उत्पन्न करने वाले एक बड़े मॉडल के लिए, KV cache मॉडल weights से अधिक GPU मेमोरी का उपभोग कर सकता है। paged attention (vLLM), quantized KV caches, और speculative decoding जैसी तकनीकें सभी मूल रूप से एक architectural बाधा के लिए इंजीनियरिंग प्रतिक्रियाएँ हैं। Transformer जल्द ही जाने वाला नहीं है, लेकिन architectures की अगली पीढ़ी लगभग निश्चित रूप से hybrids होगी जो इन scaling सीमाओं को संबोधित करते हुए इसकी ताक़तें रखेंगी।