भाषा मॉडलों के लिए प्रमुख pre-training उद्देश्य next-token भविष्यवाणी है: tokens के एक sequence दिए जाने पर, भविष्यवाणी करें कि आगे क्या आता है। मॉडल प्रशिक्षण कोष से खरबों tokens process करता है, और हर token के लिए, यह पूरी शब्दावली पर एक probability distribution की गणना करता है और वास्तविक अगले token को low probability assign करने के लिए (cross-entropy loss के माध्यम से) penalized होता है। यह धोखेबाज़ रूप से सरल उद्देश्य असाधारण रूप से शक्तिशाली निकलता है — विविध contexts में अगले शब्द की अच्छी तरह भविष्यवाणी करने के लिए, मॉडल को implicitly व्याकरण, तथ्य, reasoning patterns, coding conventions, और बहुत कुछ सीखना होगा। loss high (अनिवार्य रूप से 32,000-128,000 tokens की शब्दावली में random guessing) से शुरू होती है और धीरे-धीरे कम होती है क्योंकि मॉडल भाषा की सांख्यिकीय संरचना को आंतरिक करता है। transformer-आधारित मॉडलों के लिए, यह मानक recipe है। state-space models (Mamba, RWKV) जैसे वैकल्पिक architectures एक ही उद्देश्य का उपयोग करते हैं लेकिन attention mechanism को recurrent state updates के साथ बदलते हैं, लंबे sequences पर बेहतर computational scaling के साथ तुलनीय quality प्राप्त करते हुए।
आधुनिक pre-training का पैमाना staggering है और लगभग हर 6-9 महीने में दोगुना हो रहा है। GPT-3 (2020) ने 300 अरब tokens पर प्रशिक्षित किया। LLaMA 2 (2023) ने 2 खरब का उपयोग किया। LLaMA 3 (2024) ने 15 खरब से अधिक का उपयोग किया। compute floating-point operations में मापा जाता है, और एक फ्रंटियर pre-training रन के लिए 10^25 FLOPs की आवश्यकता हो सकती है — एक संख्या जो हज़ारों GPUs को महीनों तक चलने का अनुवाद करती है और अकेले बिजली और hardware में दसियों मिलियन डॉलर खर्च करती है। प्रशिक्षण data parallelism (हर GPU विभिन्न डेटा batches process करता है), tensor parallelism (हर layer की computation को GPUs में split किया जाता है), और pipeline parallelism (विभिन्न layers विभिन्न GPUs पर रहती हैं) जैसी तकनीकों का उपयोग करके GPUs में distributed होता है। Megatron-LM, DeepSpeed, और FSDP (PyTorch का Fully Sharded Data Parallel) जैसे frameworks हज़ारों GPUs को synchronized रखने की जटिलता को संभालते हैं, लेकिन failures आम हैं — hardware errors, network issues, और numerical instabilities का अर्थ है कि बड़े प्रशिक्षण रनों को robust checkpointing और automatic recovery की आवश्यकता होती है।
सभी pre-training समान नहीं बनाए जाते हैं, और प्रशिक्षण recipe के विवरण डेटा और compute जितने ही मायने रखते हैं। learning rate schedule आम तौर पर एक warmup चरण है (पहले कुछ हज़ार steps पर linearly learning rate बढ़ाना) उसके बाद लगभग शून्य तक एक cosine decay। Batch size अक्सर प्रशिक्षण के दौरान बढ़ता है — अधिक बार-बार, noisier gradient updates के लिए छोटे शुरू होते हैं और अधिक स्थिर बाद के चरण के प्रशिक्षण के लिए बड़े होते हैं। sequence length (मॉडल एक बार में कितने tokens देखता है) मॉडल क्या सीखता है उस पर एक प्रमुख प्रभाव डालती है: लंबे sequences इसे लंबे-range dependencies को capture करने देते हैं लेकिन attention-आधारित मॉडलों के लिए द्विघात रूप से अधिक मेमोरी खर्च करते हैं। कई टीमें अब progressive sequence length प्रशिक्षण का उपयोग करती हैं, कम contexts के साथ शुरू करती हैं और बाद में पूर्ण context window तक बढ़ती हैं। optimizer लगभग सार्वभौमिक रूप से AdamW है, हालाँकि SOAP और Muon जैसे नए दृष्टिकोण अपने संभावित बेहतर convergence गुणों के लिए ट्रैक्शन प्राप्त कर रहे हैं।
Pre-training अब एक monolithic एकल चरण नहीं है। आधुनिक प्रशिक्षण pipelines में अक्सर विभिन्न डेटा mixes के साथ कई चरण शामिल होते हैं। मुख्य pre-training चरण एक व्यापक corpus का उपयोग करता है, फिर एक "mid-training" या "continued pre-training" चरण एक उच्च-गुणवत्ता या अधिक domain-specific डेटा mix का उपयोग करता है, कभी-कभी लंबे context lengths के साथ। यही है कैसे मॉडल लंबे दस्तावेज़ों को प्रभावी ढंग से संभालना सीखते हैं — शुरुआत से 128K-token sequences पर प्रशिक्षण निषेधात्मक रूप से महंगा होगा, लेकिन अंत में long-context डेटा पर एक छोटा fine-tuning चरण आश्चर्यजनक रूप से अच्छी तरह काम करता है। Pre-training के बाद instruction डेटा पर supervised fine-tuning (SFT) आता है, फिर RLHF या DPO के माध्यम से alignment। हर चरण पिछले पर निर्माण करता है, और उनके बीच सीमाएँ तेज़ी से धुंधली हो रही हैं। जो एक स्वच्छ तीन-चरणीय pipeline (pre-train, SFT, RLHF) हुआ करता था अब हर चरण में अलग डेटा mixes, learning rates, और उद्देश्यों के साथ एक multi-stage curriculum है।