Sigmoid का आकार: यह 0 पर केंद्रित एक S-वक्र है। बड़े धनात्मक इनपुट के लिए, यह 1 के पास संतृप्त हो जाता है। बड़े ऋणात्मक इनपुट के लिए, यह 0 के पास संतृप्त हो जाता है। 0 के आसपास, यह सुचारू रूप से संक्रमण करता है। इस आकार ने इसे शुरुआती न्यूरल नेटवर्क के लिए एक स्वाभाविक विकल्प बनाया: यह एक जैविक न्यूरॉन की फ़ायरिंग दर (बंद से चालू) की नकल करता है और स्वाभाविक रूप से बंधे हुए आउटपुट उत्पन्न करता है।
Sigmoid में गहरे नेटवर्क के लिए दो समस्याएं हैं। पहला, vanishing gradients: संतृप्त क्षेत्रों (बहुत धनात्मक या बहुत ऋणात्मक इनपुट) में, gradient शून्य के करीब होता है, जिसका अर्थ है कि उन neurons के लिए सीखना प्रभावी रूप से रुक जाता है। दूसरा, non-zero-centered आउटपुट: sigmoid हमेशा धनात्मक मान आउटपुट करता है, जो gradients को या तो सभी धनात्मक या सभी ऋणात्मक बनाता है, जो convergence को धीमा करता है। ReLU दोनों को हल करता है: धनात्मक इनपुट के लिए इसका gradient 1 स्थिर है और (धनात्मक इनपुट के लिए) zero-centered है।
Sigmoid सही विकल्प बना रहता है जब आपको विशेष रूप से (0, 1) आउटपुट की आवश्यकता होती है: binary classification (सकारात्मक वर्ग की संभाव्यता), gating (कितना पास करना है, जैसे LSTMs में), और कोई भी ऑपरेशन जहां आपको एक सुचारू, बंधा हुआ activation चाहिए। SiLU activation function (x · sigmoid(x)) sigmoid को gating भूमिका में आधुनिक आर्किटेक्चर में वापस लाता है, sigmoid की चिकनाई को identity function के gradient गुणों के साथ जोड़ता है।