Zubnet AIसीखेंWiki › Sigmoid
मूल तत्व

Sigmoid

इसे भी कहा जाता है: Logistic Function
एक गणितीय फंक्शन जो किसी भी वास्तविक संख्या को (0, 1) की सीमा में समेटता है: σ(x) = 1 / (1 + e^(−x))। ऐतिहासिक रूप से न्यूरल नेटवर्क में डिफ़ॉल्ट activation function, अब hidden लेयर्स के लिए ReLU और GELU द्वारा काफ़ी हद तक प्रतिस्थापित लेकिन अभी भी binary classification आउटपुट, gating तंत्रों (LSTMs और GLU में), और attention-जैसे ऑपरेशनों के लिए उपयोग किया जाता है जहां आपको 0 और 1 के बीच मान चाहिए।

यह क्यों मायने रखता है

Sigmoid AI में हर जगह दिखाई देता है भले ही यह अब डिफ़ॉल्ट hidden activation नहीं है। LSTM gates sigmoid का उपयोग करते हैं। SiLU/Swish activation x · sigmoid(x) है। Binary classifiers आउटपुट activation के रूप में sigmoid का उपयोग करते हैं। Sigmoid को समझना — और इसे hidden लेयर्स के लिए ReLU ने क्यों प्रतिस्थापित किया — न्यूरल नेटवर्क डिज़ाइन विकल्पों को समझने के लिए मूलभूत ज्ञान है।

गहन अध्ययन

Sigmoid का आकार: यह 0 पर केंद्रित एक S-वक्र है। बड़े धनात्मक इनपुट के लिए, यह 1 के पास संतृप्त हो जाता है। बड़े ऋणात्मक इनपुट के लिए, यह 0 के पास संतृप्त हो जाता है। 0 के आसपास, यह सुचारू रूप से संक्रमण करता है। इस आकार ने इसे शुरुआती न्यूरल नेटवर्क के लिए एक स्वाभाविक विकल्प बनाया: यह एक जैविक न्यूरॉन की फ़ायरिंग दर (बंद से चालू) की नकल करता है और स्वाभाविक रूप से बंधे हुए आउटपुट उत्पन्न करता है।

इसे क्यों प्रतिस्थापित किया गया

Sigmoid में गहरे नेटवर्क के लिए दो समस्याएं हैं। पहला, vanishing gradients: संतृप्त क्षेत्रों (बहुत धनात्मक या बहुत ऋणात्मक इनपुट) में, gradient शून्य के करीब होता है, जिसका अर्थ है कि उन neurons के लिए सीखना प्रभावी रूप से रुक जाता है। दूसरा, non-zero-centered आउटपुट: sigmoid हमेशा धनात्मक मान आउटपुट करता है, जो gradients को या तो सभी धनात्मक या सभी ऋणात्मक बनाता है, जो convergence को धीमा करता है। ReLU दोनों को हल करता है: धनात्मक इनपुट के लिए इसका gradient 1 स्थिर है और (धनात्मक इनपुट के लिए) zero-centered है।

Sigmoid कहां बचता है

Sigmoid सही विकल्प बना रहता है जब आपको विशेष रूप से (0, 1) आउटपुट की आवश्यकता होती है: binary classification (सकारात्मक वर्ग की संभाव्यता), gating (कितना पास करना है, जैसे LSTMs में), और कोई भी ऑपरेशन जहां आपको एक सुचारू, बंधा हुआ activation चाहिए। SiLU activation function (x · sigmoid(x)) sigmoid को gating भूमिका में आधुनिक आर्किटेक्चर में वापस लाता है, sigmoid की चिकनाई को identity function के gradient गुणों के साथ जोड़ता है।

संबंधित अवधारणाएँ

← सभी शब्द
← Sentiment Analysis Softmax →