ReLU (Rectified Linear Unit) es la más simple: f(x) = max(0, x). Produce cero para entradas negativas y pasa las entradas positivas sin cambios. ReLU resolvió el problema del gradiente desvaneciente que afectaba a funciones de activación anteriores (sigmoid, tanh) al proporcionar un gradiente constante de 1 para entradas positivas. Su simplicidad y efectividad la hicieron el estándar durante más de una década.
GELU (Gaussian Error Linear Unit) es ahora el estándar en Transformers (usado por BERT, GPT y la mayoría de LLMs). A diferencia del corte abrupto de ReLU en cero, GELU se atenúa suavemente cerca de cero, lo que proporciona mejor flujo de gradientes. SiLU/Swish (x · sigmoid(x)) es similar y se usa en algunas arquitecturas como LLaMA. Las diferencias prácticas entre GELU y SiLU son pequeñas — ambas superan a ReLU en modelos a escala de Transformer.
Los LLMs modernos frecuentemente usan Gated Linear Units (GLU) y sus variantes (SwiGLU, GeGLU) en las capas feed-forward. Estas multiplican dos proyecciones lineales paralelas, efectivamente permitiendo que la red controle qué información pasa. SwiGLU (usado en LLaMA, Mistral y muchos otros) combina la activación SiLU con gating y consistentemente mejora sobre las capas feed-forward estándar a costa de ligeramente más parámetros.