डीप लर्निंग की कहानी का एक विशिष्ट inflection बिंदु है: 2012 ImageNet प्रतियोगिता, जहाँ Alex Krizhevsky के convolutional न्यूरल नेटवर्क (AlexNet) ने हर दूसरे दृष्टिकोण को एक ऐसे अंतर से कुचल दिया जिसने क्षेत्र को चौंका दिया। उपविजेता ने वर्षों की सावधानीपूर्वक tuning में कंप्यूटर विज़न PhD छात्रों द्वारा बनाई गई हाथ से बनाई गई फ़ीचर्स का उपयोग किया था। AlexNet ने पाँच convolutional layers का उपयोग किया जो दो GTX 580 GPUs पर लगभग एक सप्ताह के लिए प्रशिक्षित थे। यह pixels से सीधे अपनी खुद की फ़ीचर्स सीखकर जीता, और यह क़रीब भी नहीं था — error rate एक एकल वर्ष में 26% से 16% तक गिर गई। उस परिणाम ने केवल एक प्रतियोगिता नहीं जीती। इसने AI के पूरे क्षेत्र को फिर से wire किया। दो वर्षों के भीतर, वस्तुतः हर शीर्ष कंप्यूटर विज़न परिणाम ने डीप न्यूरल नेटवर्क का उपयोग किया। पाँच वर्षों के भीतर, उसी दृष्टिकोण ने प्राकृतिक भाषा प्रसंस्करण, speech recognition, और game playing को संभाल लिया था। सबक अपनी सरलता में निर्मम था: नेटवर्क को इसे समझने दें, और इसे ऐसा करने के लिए पर्याप्त डेटा और compute दें।
डीप लर्निंग में "deep" केवल एक branding अभ्यास नहीं है। Depth वह तंत्र है जिसके द्वारा न्यूरल नेटवर्क abstractions बनाते हैं। एक image classifier में, पहली layer edges का पता लगाना सीखती है — सरल oriented gradients जो contrast सीमाओं पर प्रतिक्रिया करते हैं। दूसरी layer उन edges को textures और corners में जोड़ती है। तीसरी layer textures को parts में इकट्ठा करती है: एक आँख, एक wheel, एक पत्ता। जब तक आप अंतिम layers तक पहुँचते हैं, नेटवर्क उच्च-स्तरीय अवधारणाओं पर operate कर रहा होता है जो उन चीज़ों के अनुरूप होते हैं जिन्हें मनुष्य पहचानेंगे। यह hierarchical composition ही कारण है कि डीप networks ऐसे representations सीख सकते हैं जो shallow नहीं सीख सकते — हर layer पिछले पर निर्माण करती है, और representational क्षमता depth के साथ combinatorially बढ़ती है। वही सिद्धांत भाषा मॉडलों पर लागू होता है। शुरुआती layers token-स्तरीय syntax और local patterns को capture करती हैं। मध्य layers contextual समझ विकसित करती हैं, वाक्यों में references और relationships को ट्रैक करती हैं। बाद की layers abstract reasoning, task identification, और आउटपुट planning को संभालती हैं। कोई स्पष्ट रूप से इन layers को ये काम करने के लिए programme नहीं करता। संरचना पर्याप्त data के साथ पर्याप्त depth पर प्रशिक्षण से उभरती है, जो इस दृष्टिकोण की शक्ति और रहस्य दोनों है।
डीप लर्निंग GPUs के बिना मौजूद नहीं होती, और यह एक रूपक नहीं है। न्यूरल नेटवर्क प्रशिक्षण matrix multiplications द्वारा हावी है — forward passes, backward passes, weight updates, ये सभी बड़े matrices को एक साथ गुणा करने के लिए कम किए जा सकते हैं। CPUs इन operations को कुछ cores में sequentially execute करते हैं। GPUs उन्हें हज़ारों cores में parallel में execute करते हैं। अंतर 2x या 5x नहीं है — यह उन operations के लिए 50x से 100x है जो मायने रखती हैं। NVIDIA का CUDA platform, मूल रूप से video game graphics के लिए बनाया गया, न्यूरल networks को प्रशिक्षित करने के लिए लगभग पूरी तरह से उपयुक्त निकला। हार्डवेयर इतिहास की यह दुर्घटना एक प्रमुख कारण है कि NVIDIA पृथ्वी पर सबसे मूल्यवान कंपनियों में से एक बन गया। तब से निर्भरता केवल गहरी हुई है। आधुनिक प्रशिक्षण रन high-speed interconnects पर communicating हज़ारों GPUs का उपयोग करते हैं, और एक एकल फ्रंटियर मॉडल प्रशिक्षण रन की लागत 2012 में हज़ारों डॉलर से 2025 में सैकड़ों मिलियन तक चढ़ गई है। यह हार्डवेयर निर्भरता ही है जो डीप लर्निंग को संस्थागत समर्थन या cloud compute credits के बिना अधिकांश शोधकर्ताओं के लिए दुर्गम बनाती है — एक तनाव जिसे क्षेत्र ने कभी पूरी तरह से हल नहीं किया है।
Scaling परिकल्पना कहती है कि आप मॉडलों को बड़ा बनाकर — अधिक parameters, अधिक डेटा, अधिक compute — उन्हें smarter बना सकते हैं, और यह संबंध पूर्वानुमेय power laws का अनुसरण करता है। कई वर्षों तक, यह परिकल्पना लगभग अनुचित रूप से सच दिखाई दी। GPT-2 (1.5B parameters) मुश्किल से एक सुसंगत paragraph लिख सकता था। GPT-3 (175B) निबंध लिख सकता था और few-shot learning कर सकता था। GPT-4 ने bar exam पास किया। पैमाने में हर छलांग ने क्षमता में गुणात्मक छलांगें लाईं जो किसी ने मॉडल को रखने के लिए स्पष्ट रूप से प्रशिक्षित नहीं किया था। लेकिन परिकल्पना की सीमाएँ हैं, और क्षेत्र उन्हें hit करना शुरू कर रहा है। प्रशिक्षण डेटा ख़त्म हो रहा है — पूरा सार्वजनिक internet पहले से ही scrape हो चुका है, और synthetic डेटा अपनी समस्याएँ पेश करता है। Compute लागत सबसे अमीर labs के लिए भी प्रतिबंधात्मक होती जा रही है। और कुछ क्षमताएँ (विश्वसनीय अंकगणित, सुसंगत long-range planning, hallucinate नहीं करना) अकेले पैमाने के सामने साफ़ तरीके से नहीं झुकतीं। परिणाम दक्षता की ओर एक pivot है: बेहतर architectures, बेहतर प्रशिक्षण recipes, बेहतर डेटा क्यूरेशन, और chain-of-thought reasoning जैसी inference-time तकनीकें जो मौजूदा मॉडलों से अधिक क्षमता निकालती हैं।
2026 तक, Transformer architecture जीत गया है। यह भाषा मॉडलों पर हावी है, अधिकांश image generators को शक्ति देता है (Transformer backbones के साथ diffusion मॉडलों के माध्यम से), audio, वीडियो, और multimodal inputs को संभालता है। लेकिन dominance का अर्थ permanence नहीं है। Transformer की द्विघात attention लागत — हर token हर दूसरे token पर attending — लंबे sequences के लिए एक कठिन scaling दीवार बनाती है। यह विकल्पों में गंभीर शोध को आगे बढ़ा रहा है। State Space Models (SSMs), विशेष रूप से Mamba परिवार, स्पष्ट pairwise attention के बजाय एक compressed hidden state बनाए रखकर linear time में sequences को प्रोसेस करते हैं। Hybrid architectures जो Transformer layers को SSM layers के साथ मिलाते हैं, मज़बूत परिणाम दिखा रहे हैं, short-range कार्यों पर Transformer की गुणवत्ता रखते हुए लंबे sequences पर SSM की दक्षता प्राप्त कर रहे हैं। Foundation मॉडलों की अगली पीढ़ी लगभग निश्चित रूप से शुद्ध Transformers नहीं होगी। वे hybrids होंगे — architectures जो attention को वहाँ संयोजित करते हैं जहाँ यह सबसे अधिक मायने रखती है, अधिक कुशल mechanisms के साथ हर जगह। डीप लर्निंग विकसित होना समाप्त नहीं हुआ है। यह बस अपना पहला act ख़त्म किया है।