Zubnet AIसीखेंWiki › Backpropagation
मूल तत्व

Backpropagation

इसे भी कहा जाता है: Backprop, Backward Pass
वह एल्गोरिदम जो गणना करता है कि एक न्यूरल नेटवर्क में प्रत्येक parameter ने error में कितना योगदान दिया, जिससे gradient descent parameters को कुशलतापूर्वक अपडेट कर सके। Backpropagation नेटवर्क के माध्यम से उल्टे क्रम में calculus के chain rule को लागू करता है: output पर loss से शुरू करते हुए, यह प्रत्येक weight के दोष के हिस्से को निर्धारित करने के लिए प्रत्येक layer के माध्यम से gradients को पीछे की ओर प्रसारित करता है।

यह क्यों मायने रखता है

Backpropagation वह एल्गोरिदम है जो न्यूरल नेटवर्क प्रशिक्षण को संभव बनाता है। अरबों parameters के लिए gradients की गणना करने के कुशल तरीके के बिना, gradient descent कम्प्यूटेशनल रूप से अव्यवहार्य होगा। आप जो भी मॉडल उपयोग करते हैं — एक छोटे classifier से लेकर 400B LLM तक — backpropagation का उपयोग करके प्रशिक्षित किया गया था। यह deep learning में सबसे महत्वपूर्ण एल्गोरिदम है।

गहन अध्ययन

Forward pass: इनपुट नेटवर्क से प्रवाहित होता है, प्रत्येक layer अपना transformation लागू करती है, और अंतिम layer एक prediction उत्पन्न करती है। Loss function गणना करता है कि prediction कितनी गलत है। Backward pass: loss से शुरू करते हुए, backpropagation chain rule का उपयोग करके नेटवर्क में हर weight के लिए ∂loss/∂weight की गणना करता है: ∂loss/∂w = ∂loss/∂output · ∂output/∂hidden · ∂hidden/∂w। प्रत्येक layer ऊपर की layer से gradient प्राप्त करती है और अपना gradient नीचे की layer को पास करती है।

कम्प्यूटेशनल दक्षता

प्रत्येक weight के लिए स्वतंत्र रूप से gradient की गणना करने के लिए प्रति weight एक अलग forward pass की आवश्यकता होगी — अरबों parameters के लिए असंभव रूप से महंगा। Backpropagation मध्यवर्ती परिणामों का पुन: उपयोग करता है: प्रत्येक layer पर gradient एक बार गणना किया जाता है और उस layer के सभी weights के साथ साझा किया जाता है। Backward pass compute में forward pass का लगभग 2x खर्च करता है, जिसका अर्थ है कि एक training step (forward + backward + update) की कुल लागत एक single forward pass का लगभग 3x है।

Automatic Differentiation

आधुनिक deep learning frameworks (PyTorch, JAX) automatic differentiation (autograd) के माध्यम से backpropagation लागू करते हैं। आप forward computation को परिभाषित करते हैं, और framework स्वचालित रूप से backward computation graph बनाता है और gradients की गणना करता है। इसका मतलब है कि आप कभी मैन्युअल रूप से gradients derive नहीं करते — आप model architecture और loss को परिभाषित करते हैं, loss.backward() कॉल करते हैं, और framework बाकी संभालता है। यह automation वह है जो तेज़ architecture प्रयोग को व्यावहारिक बनाता है।

संबंधित अवधारणाएँ

← सभी शब्द
← AWS Bedrock Batch Size & Epoch →