Zubnet AIAprenderWiki › Capa
Fundamentos

Capa

También conocido como: Capa oculta, Capa de red neuronal
Un grupo de neuronas que procesa datos en un nivel específico de abstracción dentro de una red neuronal. La capa de entrada recibe datos sin procesar. Las capas ocultas (las intermedias) aprenden representaciones cada vez más abstractas. La capa de salida produce el resultado final. El aprendizaje "profundo" (deep learning) significa muchas capas ocultas — los LLMs modernos tienen de 32 a más de 128 capas.

Por qué importa

Las capas crean la jerarquía que hace poderoso al deep learning. Las capas tempranas aprenden patrones simples (bordes en imágenes, fragmentos de palabras en texto). Las capas intermedias combinan estos en conceptos (rostros, frases). Las capas profundas combinan conceptos en comprensión de alto nivel (reconocimiento de escenas, razonamiento). La profundidad de una red determina la complejidad de los patrones que puede aprender.

En profundidad

En un Transformer, cada capa (llamada "bloque") consta de dos subcapas: una capa de atención multi-cabeza (que mezcla información entre tokens) y una red feedforward (que procesa cada token de forma independiente). Cada subcapa tiene una conexión residual (la entrada se suma de vuelta a la salida) y normalización. Un Transformer de 32 capas aplica este patrón de atención+FFN 32 veces, refinando la representación en cada paso.

Qué sucede a lo largo de las capas

La investigación ha revelado un patrón general en los LLMs: las capas tempranas manejan la sintaxis y los patrones superficiales, las capas intermedias manejan el significado semántico y el reconocimiento de entidades, y las capas tardías manejan el razonamiento específico de la tarea y el formato de salida. Esto no es un límite rígido — la información fluye a través de todas las capas mediante conexiones residuales — pero explica por qué algunas técnicas de fine-tuning solo modifican ciertas capas y por qué podar las capas intermedias generalmente causa más daño que podar las tempranas o tardías.

Ancho vs. profundidad

El "ancho" de una red es el número de neuronas por capa (la dimensión del modelo). Su "profundidad" es el número de capas. Ambos importan, pero contribuyen de forma diferente: las capas más anchas pueden representar más características simultáneamente, mientras que las redes más profundas pueden aprender patrones más complejos y compositivos. Los LLMs modernos tienden a ser tanto anchos (dimensiones de 4096–8192) como profundos (32–128 capas). Las leyes de escala sugieren que el ancho y la profundidad deben escalarse juntos para un rendimiento óptimo.

Conceptos relacionados

ESC