Zubnet AIसीखेंWiki › ग्रेडिएंट डिसेंट
प्रशिक्षण

ग्रेडिएंट डिसेंट

इसे यह भी कहते हैं: SGD, Backpropagation
Gradients की गणना करके और ढलान पर नीचे जाकर loss को कम करने के लिए पैरामीटर को iteratively समायोजित करता है। Backpropagation परतों के माध्यम से कुशलता से gradients की गणना करता है।

यह क्यों मायने रखता है

हर मॉडल gradient descent द्वारा प्रशिक्षित किया गया है। Learning rate के महत्व, प्रशिक्षण divergence और Adam क्यों काम करता है, यह समझाता है।

गहन अध्ययन

पूरा चक्र: batch → forward → loss → backprop → update। Adam optimizer: adaptive per-parameter learning rates। Learning rate schedules: warmup → peak → cosine decay।

संबंधित अवधारणाएँ

← सभी शब्द
← ग्राउंडिंग चापलूसी →
ESC