Zubnet AI學習Wiki › 池化
基礎

池化

別名:最大池化、平均池化

一種透過將區域總結為單一值來減少資料空間維度的操作。最大池化取每個區域的最大值。平均池化取平均值。在 CNN 中,池化層在卷積層之間對特徵圖進行降採樣。在 Transformer 中,池化將 token 表示組合成單一向量(例如用於分類)。

為什麼重要

池化是神經網路從局部特徵到全域理解的方式。CNN 可能從 224×224 的特徵圖開始,在最終層池化到 7×7,逐步總結空間資訊。在 NLP 中,對 token 嵌入進行平均池化是從一系列 token 表示建立單一句子嵌入的標準方法。

深度解析

在 CNN 中:一個步幅為 2 的 2×2 最大池化取每個 2×2 區域,保留最大值,並將每個空間維度減半。這實現了兩件事:平移不變性(輸入的微小位移不會改變輸出)和維度縮減(後續層需要處理的值更少)。平均池化做同樣的事但取平均值,保留更多資訊但對噪音的穩健性較低。

NLP 中的池化

要從可變長度的 token 序列建立固定大小的嵌入,你需要池化。常見策略:[CLS] token 池化(使用特殊 token 的表示,如 BERT)、平均池化(對所有 token 表示取平均 — 通常是句子嵌入的最佳選擇)、最大池化(取跨 token 的逐元素最大值)、以及加權池化(根據注意力分數對 token 加權)。大多數嵌入模型因其簡單性和有效性而使用平均池化。

全域平均池化

在現代視覺架構中,全域平均池化取代了舊式 CNN 用於分類的全連接層。全域平均池化不是將最終特徵圖展平為向量(這會產生數百萬個參數),而是將每個特徵圖通道平均為單一數字。這產生了一個沒有學習參數的緊湊表示,充當強正則化器。Vision Transformer 使用 [CLS] token 實現類似的方法。

相關概念

← 所有術語
← 殘差連接 注意力 →