Zubnet AIAprenderWiki › Pooling
Fundamentos

Pooling

Também conhecido como: Max Pooling, Average Pooling
Uma operação que reduz as dimensões espaciais dos dados resumindo uma região em um único valor. Max pooling pega o valor máximo em cada região. Average pooling pega a média. Em CNNs, camadas de pooling reduzem a amostragem de mapas de features entre camadas convolucionais. Em Transformers, pooling combina representações de tokens em um único vetor (ex.: para classificação).

Por que isso importa

Pooling é como redes neurais vão de features locais para compreensão global. Uma CNN pode começar com mapas de features de 224×224 e reduzir para 7×7 na camada final, resumindo progressivamente informação espacial. Em NLP, mean pooling sobre embeddings de tokens é a forma padrão de criar um único embedding de frase a partir de uma sequência de representações de tokens.

Em profundidade

Em CNNs: um max pool 2×2 com stride 2 pega cada região 2×2, mantém o valor máximo e reduz cada dimensão espacial pela metade. Isso alcança duas coisas: invariância translacional (pequenos deslocamentos na entrada não mudam a saída) e redução de dimensionalidade (menos valores para processar nas camadas subsequentes). Average pooling faz o mesmo mas pega a média, o que preserva mais informação mas é menos robusto a ruído.

Pooling em NLP

Para criar um embedding de tamanho fixo a partir de uma sequência de tokens de comprimento variável, você precisa de pooling. Estratégias comuns: pooling de token [CLS] (usar a representação de um token especial, como no BERT), mean pooling (calcular a média de todas as representações de tokens — geralmente o melhor para embeddings de frases), max pooling (pegar o máximo elemento a elemento entre tokens) e weighted pooling (ponderar tokens por scores de atenção). A maioria dos modelos de embedding usa mean pooling por sua simplicidade e eficácia.

Global Average Pooling

Em arquiteturas de visão modernas, global average pooling substitui as camadas totalmente conectadas que CNNs mais antigas usavam para classificação. Em vez de achatar o mapa de features final em um vetor (o que cria milhões de parâmetros), global average pooling calcula a média de cada canal do mapa de features para um único número. Isso produz uma representação compacta sem parâmetros aprendidos, funcionando como um regularizador forte. Vision Transformers usam uma abordagem similar com o token [CLS].

Conceitos relacionados

← Todos os termos
← Poda Precisão & Recall →