ReLU (Rectified Linear Unit) सबसे सरल है: f(x) = max(0, x)। यह नकारात्मक इनपुट के लिए शून्य आउटपुट करता है और सकारात्मक इनपुट को अपरिवर्तित पास करता है। ReLU ने पहले के activation functions (sigmoid, tanh) को परेशान करने वाली vanishing gradient समस्या को हल किया, सकारात्मक इनपुट के लिए 1 का स्थिर ग्रेडिएंट प्रदान करके। इसकी सरलता और प्रभावशीलता ने इसे एक दशक से अधिक समय तक डिफ़ॉल्ट बनाया।
GELU (Gaussian Error Linear Unit) अब Transformers में मानक है (BERT, GPT, और अधिकांश LLMs द्वारा उपयोग किया जाता है)। ReLU के शून्य पर कठोर कटऑफ के विपरीत, GELU शून्य के पास सहजता से पतला होता है, जो बेहतर ग्रेडिएंट प्रवाह प्रदान करता है। SiLU/Swish (x · sigmoid(x)) समान है और LLaMA जैसे कुछ आर्किटेक्चर में उपयोग किया जाता है। GELU और SiLU के बीच व्यावहारिक अंतर छोटे हैं — दोनों Transformer-स्केल मॉडल में ReLU से बेहतर प्रदर्शन करते हैं।
आधुनिक LLMs अक्सर feed-forward परतों में Gated Linear Units (GLU) और उनके वेरिएंट (SwiGLU, GeGLU) का उपयोग करते हैं। ये दो समानांतर रैखिक प्रक्षेपणों को एक साथ गुणा करते हैं, प्रभावी रूप से नेटवर्क को यह gate करने देते हैं कि कौन सी जानकारी पास होती है। SwiGLU (LLaMA, Mistral, और कई अन्य में उपयोग किया जाता है) SiLU activation को gating के साथ जोड़ता है और थोड़े अधिक पैरामीटर की लागत पर मानक feed-forward परतों पर लगातार सुधार करता है।