Zubnet AIAprenderWiki › Función de Activación
Fundamentos

Función de Activación

ReLU, GELU, SiLU, Swish
Una función matemática aplicada a la salida de una neurona que introduce no-linealidad en la red. Sin funciones de activación, una red neuronal — sin importar cuántas capas de profundidad — solo podría aprender relaciones lineales. ReLU, GELU y SiLU/Swish son las más comunes en las arquitecturas modernas.

Por qué importa

Las funciones de activación son la razón por la que el deep learning funciona. Una pila de transformaciones lineales es solo una gran transformación lineal. Las funciones de activación entre capas permiten que la red aprenda patrones complejos y no lineales — las curvas, bordes y relaciones sutiles que hacen poderosas a las redes neuronales.

En profundidad

ReLU (Rectified Linear Unit) es la más simple: f(x) = max(0, x). Produce cero para entradas negativas y pasa las entradas positivas sin cambios. ReLU resolvió el problema del gradiente desvaneciente que afectaba a funciones de activación anteriores (sigmoid, tanh) al proporcionar un gradiente constante de 1 para entradas positivas. Su simplicidad y efectividad la hicieron el estándar durante más de una década.

Más Allá de ReLU

GELU (Gaussian Error Linear Unit) es ahora el estándar en Transformers (usado por BERT, GPT y la mayoría de LLMs). A diferencia del corte abrupto de ReLU en cero, GELU se atenúa suavemente cerca de cero, lo que proporciona mejor flujo de gradientes. SiLU/Swish (x · sigmoid(x)) es similar y se usa en algunas arquitecturas como LLaMA. Las diferencias prácticas entre GELU y SiLU son pequeñas — ambas superan a ReLU en modelos a escala de Transformer.

Variantes GLU

Los LLMs modernos frecuentemente usan Gated Linear Units (GLU) y sus variantes (SwiGLU, GeGLU) en las capas feed-forward. Estas multiplican dos proyecciones lineales paralelas, efectivamente permitiendo que la red controle qué información pasa. SwiGLU (usado en LLaMA, Mistral y muchos otros) combina la activación SiLU con gating y consistentemente mejora sobre las capas feed-forward estándar a costa de ligeramente más parámetros.

Conceptos relacionados

← Todos los términos
← Flujo de trabajo agéntico Función de pérdida →
ESC