Machine learning तीन paradigms में विभाजित होती है, और कौन सा लागू होता है यह जानना आपको ग़लत tool के लिए पहुँचने से बचाता है। Supervised learning workhorse है: आप मॉडल को labeled उदाहरण देते हैं (यह email spam है, यह नहीं है) और यह input से output तक एक mapping सीखता है। Classification, regression, translation, image captioning — यदि आपके पास labeled डेटा है, तो supervised learning लगभग निश्चित रूप से वह जगह है जहाँ आप शुरू करते हैं। Unsupervised learning labels के बिना काम करती है: यह अपने आप संरचना खोजती है। ग्राहकों को खरीदारी व्यवहार द्वारा clustering करना, एक 10,000-feature dataset को इसके सबसे informative dimensions तक कम करना, असामान्य network traffic का पता लगाना जो किसी ज्ञात pattern से मेल नहीं खाता। आप इसका उपयोग तब करते हैं जब आप नहीं जानते कि आप क्या ढूँढ रहे हैं, जो लोगों के स्वीकार करने से अधिक बार होता है। Reinforcement learning अजीब है — मॉडल trial और error से सीखता है, अपने actions के लिए rewards या penalties प्राप्त करते हुए। यही है कैसे AlphaGo ने world champion को हराया, कैसे robots चलना सीखते हैं, और कैसे RLHF LLMs को मानव वरीयताओं के साथ align करता है। यह कुख्यात रूप से सही करना कठिन भी है, यही कारण है कि अधिकांश production ML अभी भी supervised है।
एक persistent मिथक है कि डीप लर्निंग ने classical ML को अप्रचलित बना दिया है। ऐसा नहीं है। Logistic regression अभी भी एक Transformer को हराता है जब आपके पास tabular डेटा की 500 rows, features का एक स्पष्ट set, और एक regulator को अपनी भविष्यवाणियों को समझाने की आवश्यकता होती है। Random forests और gradient-boosted trees (XGBoost, LightGBM) एक कारण से structured डेटा पर Kaggle प्रतियोगिताओं पर हावी हैं — वे प्रशिक्षित करने में तेज़ हैं, overfit करना कठिन हैं, और उनकी feature importances interpretable हैं। डीप लर्निंग तब चमकती है जब डेटा unstructured (छवियाँ, text, audio, वीडियो) होता है और features हाथ से engineer करने के लिए बहुत जटिल होते हैं। कोई भी अब edge-detection filters नहीं लिखता क्योंकि convolutional nets बेहतर सीखते हैं। कोई भी अब translation के लिए grammar नियम नहीं लिखता क्योंकि Transformers end-to-end mapping सीखते हैं। कौशल यह जानना है कि आप किस regime में हैं। यदि आपका डेटा एक spreadsheet में fit होता है, तो पहले XGBoost आज़माएँ। यदि नहीं, तो वहीं neural networks अपनी जटिलता अर्जित करते हैं।
हर ML प्रोजेक्ट उसी loop का अनुसरण करता है, चाहे आप एक spam filter को प्रशिक्षित कर रहे हों या एक 400-अरब-parameter LLM को। आप डेटा के साथ शुरू करते हैं — इसे एकत्र करना, इसे साफ़ करना, इसे training और test sets में विभाजित करना। फिर आप features निकालते या सीखते हैं: classical ML में, इसका अर्थ है उन्हें हाथ से engineer करना (शब्द counts, pixel histograms, date features); डीप लर्निंग में, मॉडल raw input से अपनी features सीखता है। आप एक मॉडल आर्किटेक्चर चुनते हैं, इसे प्रशिक्षण डेटा पर एक loss function को minimize करके प्रशिक्षित करते हैं, फिर यह देखने के लिए held-out डेटा पर इसका मूल्यांकन करते हैं कि क्या यह वास्तव में सामान्यीकृत होता है। यह लगभग कभी पहली बार काम नहीं करता। तो आप iterate करते हैं — अधिक डेटा, बेहतर features, विभिन्न hyperparameters, एक पूरी तरह से अलग आर्किटेक्चर। एक textbook ML pipeline और एक production सिस्टम के बीच का gap अधिकांशतः यह loop है, सैकड़ों बार चलाया गया तेज़ी से desperate experiments के साथ जब तक कि कुछ ship करने के लिए पर्याप्त अच्छा काम नहीं करता।
Machine learning के पीछे के विचार नए नहीं हैं। Backpropagation 1980 के दशक में पता चला था। SVMs और random forests 2000 के दशक की शुरुआत तक परिपक्व थे। जो बदला वह यह है कि तीन चीज़ें एक ही समय में converged हुईं। पहली, डेटा: internet ने अधिक labeled और unlabeled डेटा उत्पन्न किया जितना किसी को नहीं पता था कि क्या करें। दूसरी, compute: GPUs accidentally उन matrix multiplications के लिए perfect निकले जिनकी न्यूरल networks को आवश्यकता है, और cloud providers ने उन GPUs को घंटे के हिसाब से उपलब्ध बनाया। तीसरी, algorithms: batch normalization, dropout, attention mechanisms, और बेहतर optimizers ने उन networks को प्रशिक्षित करना संभव बनाया जो पहले converge करने के लिए बहुत गहरे और बहुत अस्थिर थे। अकेले इन तीन कारकों में से कोई भी पर्याप्त नहीं होगा। 1990 के दशक में बहुत सारा डेटा मौजूद था, लेकिन किसी के पास उस पर प्रशिक्षण देने के लिए compute नहीं था। GPUs 2000 के दशक में मौजूद थे, लेकिन सौ-layer networks को प्रशिक्षित करने के algorithmic tricks अभी तक खोजे नहीं गए थे। तीनों के एक साथ आने में लगा वर्तमान लहर को trigger करने के लिए — और यह कारण है कि ML अकादमिक जिज्ञासा से एक दशक से भी कम समय में ग्रह पर सबसे अधिक वित्त पोषित technology sector में चला गया।