Em CNNs: um max pool 2×2 com stride 2 pega cada região 2×2, mantém o valor máximo e reduz cada dimensão espacial pela metade. Isso alcança duas coisas: invariância translacional (pequenos deslocamentos na entrada não mudam a saída) e redução de dimensionalidade (menos valores para processar nas camadas subsequentes). Average pooling faz o mesmo mas pega a média, o que preserva mais informação mas é menos robusto a ruído.
Para criar um embedding de tamanho fixo a partir de uma sequência de tokens de comprimento variável, você precisa de pooling. Estratégias comuns: pooling de token [CLS] (usar a representação de um token especial, como no BERT), mean pooling (calcular a média de todas as representações de tokens — geralmente o melhor para embeddings de frases), max pooling (pegar o máximo elemento a elemento entre tokens) e weighted pooling (ponderar tokens por scores de atenção). A maioria dos modelos de embedding usa mean pooling por sua simplicidade e eficácia.
Em arquiteturas de visão modernas, global average pooling substitui as camadas totalmente conectadas que CNNs mais antigas usavam para classificação. Em vez de achatar o mapa de features final em um vetor (o que cria milhões de parâmetros), global average pooling calcula a média de cada canal do mapa de features para um único número. Isso produz uma representação compacta sem parâmetros aprendidos, funcionando como um regularizador forte. Vision Transformers usam uma abordagem similar com o token [CLS].