Zubnet AIAprenderWiki › Pooling
Fundamentos

Pooling

También conocido como: Max Pooling, Average Pooling
Una operación que reduce las dimensiones espaciales de los datos resumiendo una región en un solo valor. Max pooling toma el valor máximo en cada región. Average pooling toma la media. En CNN, las capas de pooling reducen la dimensión de los mapas de características entre capas convolucionales. En Transformers, el pooling combina representaciones de tokens en un solo vector (por ejemplo, para clasificación).

Por qué importa

El pooling es cómo las redes neuronales pasan de características locales a comprensión global. Una CNN podría comenzar con mapas de características de 224×224 y reducirlos a 7×7 en la capa final, resumiendo progresivamente la información espacial. En NLP, el mean pooling sobre embeddings de tokens es la forma estándar de crear un único embedding de oración a partir de una secuencia de representaciones de tokens.

En profundidad

En CNN: un max pool de 2×2 con stride 2 toma cada región de 2×2, conserva el valor máximo y reduce cada dimensión espacial a la mitad. Esto logra dos cosas: invariancia por traslación (pequeños desplazamientos en la entrada no cambian la salida) y reducción de dimensionalidad (menos valores para procesar en capas subsiguientes). Average pooling hace lo mismo pero toma la media, lo que preserva más información pero es menos robusto al ruido.

Pooling en NLP

Para crear un embedding de tamaño fijo a partir de una secuencia de tokens de longitud variable, necesitas hacer pooling. Estrategias comunes: pooling del token [CLS] (usar la representación de un token especial, como en BERT), mean pooling (promediar todas las representaciones de tokens — generalmente lo mejor para embeddings de oraciones), max pooling (tomar el máximo elemento a elemento entre tokens), y pooling ponderado (ponderar tokens por puntuaciones de atención). La mayoría de los modelos de embedding usan mean pooling por su simplicidad y efectividad.

Global Average Pooling

En las arquitecturas de visión modernas, el global average pooling reemplaza las capas totalmente conectadas que usaban las CNN antiguas para clasificación. En lugar de aplanar el mapa de características final en un vector (lo que crea millones de parámetros), el global average pooling promedia cada canal del mapa de características a un solo número. Esto produce una representación compacta sin parámetros aprendidos, actuando como un regularizador fuerte. Los Vision Transformers usan un enfoque similar con el token [CLS].

Conceptos relacionados

← Todos los términos