En CNN: un max pool de 2×2 con stride 2 toma cada región de 2×2, conserva el valor máximo y reduce cada dimensión espacial a la mitad. Esto logra dos cosas: invariancia por traslación (pequeños desplazamientos en la entrada no cambian la salida) y reducción de dimensionalidad (menos valores para procesar en capas subsiguientes). Average pooling hace lo mismo pero toma la media, lo que preserva más información pero es menos robusto al ruido.
Para crear un embedding de tamaño fijo a partir de una secuencia de tokens de longitud variable, necesitas hacer pooling. Estrategias comunes: pooling del token [CLS] (usar la representación de un token especial, como en BERT), mean pooling (promediar todas las representaciones de tokens — generalmente lo mejor para embeddings de oraciones), max pooling (tomar el máximo elemento a elemento entre tokens), y pooling ponderado (ponderar tokens por puntuaciones de atención). La mayoría de los modelos de embedding usan mean pooling por su simplicidad y efectividad.
En las arquitecturas de visión modernas, el global average pooling reemplaza las capas totalmente conectadas que usaban las CNN antiguas para clasificación. En lugar de aplanar el mapa de características final en un vector (lo que crea millones de parámetros), el global average pooling promedia cada canal del mapa de características a un solo número. Esto produce una representación compacta sin parámetros aprendidos, actuando como un regularizador fuerte. Los Vision Transformers usan un enfoque similar con el token [CLS].