प्रशिक्षण

ग्रेडिएंट डिसेंट

इसे यह भी कहते हैं: SGD, Backpropagation

Gradients की गणना करके और ढलान पर नीचे जाकर loss को कम करने के लिए पैरामीटर को iteratively समायोजित करता है। Backpropagation परतों के माध्यम से कुशलता से gradients की गणना करता है।

यह क्यों मायने रखता है

हर मॉडल gradient descent द्वारा प्रशिक्षित किया गया है। Learning rate के महत्व, प्रशिक्षण divergence और Adam क्यों काम करता है, यह समझाता है।

गहन अध्ययन

पूरा चक्र: batch → forward → loss → backprop → update। Adam optimizer: adaptive per-parameter learning rates। Learning rate schedules: warmup → peak → cosine decay।

ग्रेडिएंट डिसेंट

यह क्यों मायने रखता है

गहन अध्ययन

संबंधित अवधारणाएँ