Zubnet AIसीखेंWiki › Activation Function
मूल तत्व

Activation Function

इसे भी कहा जाता है: ReLU, GELU, SiLU, Swish
एक न्यूरॉन के आउटपुट पर लागू किया जाने वाला गणितीय फ़ंक्शन जो नेटवर्क में गैर-रैखिकता पेश करता है। Activation functions के बिना, एक न्यूरल नेटवर्क — चाहे कितनी भी परतें गहरा हो — केवल रैखिक संबंध सीख सकेगा। ReLU, GELU, और SiLU/Swish आधुनिक आर्किटेक्चर में सबसे सामान्य हैं।

यह क्यों मायने रखता है

Activation functions वह कारण हैं कि डीप लर्निंग बिल्कुल काम करती है। रैखिक रूपांतरणों का एक स्टैक बस एक बड़ा रैखिक रूपांतरण है। परतों के बीच activation functions नेटवर्क को जटिल, गैर-रैखिक पैटर्न सीखने देते हैं — वे वक्र, किनारे और सूक्ष्म संबंध जो न्यूरल नेटवर्क को शक्तिशाली बनाते हैं।

गहन अध्ययन

ReLU (Rectified Linear Unit) सबसे सरल है: f(x) = max(0, x)। यह नकारात्मक इनपुट के लिए शून्य आउटपुट करता है और सकारात्मक इनपुट को अपरिवर्तित पास करता है। ReLU ने पहले के activation functions (sigmoid, tanh) को परेशान करने वाली vanishing gradient समस्या को हल किया, सकारात्मक इनपुट के लिए 1 का स्थिर ग्रेडिएंट प्रदान करके। इसकी सरलता और प्रभावशीलता ने इसे एक दशक से अधिक समय तक डिफ़ॉल्ट बनाया।

ReLU से आगे

GELU (Gaussian Error Linear Unit) अब Transformers में मानक है (BERT, GPT, और अधिकांश LLMs द्वारा उपयोग किया जाता है)। ReLU के शून्य पर कठोर कटऑफ के विपरीत, GELU शून्य के पास सहजता से पतला होता है, जो बेहतर ग्रेडिएंट प्रवाह प्रदान करता है। SiLU/Swish (x · sigmoid(x)) समान है और LLaMA जैसे कुछ आर्किटेक्चर में उपयोग किया जाता है। GELU और SiLU के बीच व्यावहारिक अंतर छोटे हैं — दोनों Transformer-स्केल मॉडल में ReLU से बेहतर प्रदर्शन करते हैं।

GLU वेरिएंट

आधुनिक LLMs अक्सर feed-forward परतों में Gated Linear Units (GLU) और उनके वेरिएंट (SwiGLU, GeGLU) का उपयोग करते हैं। ये दो समानांतर रैखिक प्रक्षेपणों को एक साथ गुणा करते हैं, प्रभावी रूप से नेटवर्क को यह gate करने देते हैं कि कौन सी जानकारी पास होती है। SwiGLU (LLaMA, Mistral, और कई अन्य में उपयोग किया जाता है) SiLU activation को gating के साथ जोड़ता है और थोड़े अधिक पैरामीटर की लागत पर मानक feed-forward परतों पर लगातार सुधार करता है।

संबंधित अवधारणाएँ

← सभी शब्द
Adam Optimizer →