CNN 的核心運算是卷積:一個小型濾波器(例如 3×3 像素)在影像上滑動,在每個位置計算內積以偵測特定模式。早期層學習簡單模式(邊緣、色彩漸層)。更深的層將這些組合成越來越複雜的特徵(眼睛、車輪、面孔)。池化層在卷積層之間進行降採樣,減少空間維度同時保留重要特徵。
兩個關鍵特性使 CNN 高效:平移等變性(無論貓出現在影像的哪個位置,貓就是貓——同一個濾波器在各處都能偵測到它)和局部性(鄰近的像素比遠處的像素更相關)。這些特性大幅減少了與全連接網路相比所需的參數數量,使 CNN 在高解析度影像上可行。
CNN 不限於影像。一維卷積處理序列(音訊波形、時間序列)。WaveNet(用於語音合成)和一些文本分類模型使用一維 CNN。在音訊方面,頻譜圖被視為二維影像並用標準二維 CNN 處理。即使在 Transformer 時代,一些混合架構在將資料饋入注意力層之前使用卷積層進行局部特徵提取。