池化：定義與含義 — AI 維基

一種透過將區域總結為單一值來減少資料空間維度的操作。最大池化取每個區域的最大值。平均池化取平均值。在 CNN 中，池化層在卷積層之間對特徵圖進行降採樣。在 Transformer 中，池化將 token 表示組合成單一向量（例如用於分類）。

為什麼重要

池化是神經網路從局部特徵到全域理解的方式。CNN 可能從 224×224 的特徵圖開始，在最終層池化到 7×7，逐步總結空間資訊。在 NLP 中，對 token 嵌入進行平均池化是從一系列 token 表示建立單一句子嵌入的標準方法。

深度解析

在 CNN 中：一個步幅為 2 的 2×2 最大池化取每個 2×2 區域，保留最大值，並將每個空間維度減半。這實現了兩件事：平移不變性（輸入的微小位移不會改變輸出）和維度縮減（後續層需要處理的值更少）。平均池化做同樣的事但取平均值，保留更多資訊但對噪音的穩健性較低。

NLP 中的池化

要從可變長度的 token 序列建立固定大小的嵌入，你需要池化。常見策略：[CLS] token 池化（使用特殊 token 的表示，如 BERT）、平均池化（對所有 token 表示取平均 — 通常是句子嵌入的最佳選擇）、最大池化（取跨 token 的逐元素最大值）、以及加權池化（根據注意力分數對 token 加權）。大多數嵌入模型因其簡單性和有效性而使用平均池化。

全域平均池化

在現代視覺架構中，全域平均池化取代了舊式 CNN 用於分類的全連接層。全域平均池化不是將最終特徵圖展平為向量（這會產生數百萬個參數），而是將每個特徵圖通道平均為單一數字。這產生了一個沒有學習參數的緊湊表示，充當強正則化器。Vision Transformer 使用 [CLS] token 實現類似的方法。

池化

為什麼重要

深度解析

NLP 中的池化

全域平均池化

相關概念