使用 3×3 核的卷積:在每個位置,將 9 個核值與 9 個底層輸入值相乘並求和。這產生一個輸出值。將核滑動到下一個位置並重複。單個核產生一個特徵圖(偵測一種模式)。多個核產生多個特徵圖。步幅(核每步移動多遠)和填充(如何處理邊緣)是控制輸出大小的額外參數。
在 CNN 中,早期層使用小型核偵測簡單模式。每個後續層在前一層的特徵圖上進行卷積,偵測逐漸複雜的模式。第 1 層:邊緣。第 2 層:角落和紋理(邊緣的組合)。第 3 層:物件部分(紋理的組合)。第 4 層:物件(部分的組合)。這種層次式特徵學習是 CNN 在視覺領域成功的基本機制。
卷積不限於二維影像。一維卷積處理序列(音訊波形、時間序列、文字),沿一個維度滑動核。三維卷積處理體積資料(影片、醫學掃描),沿三個維度滑動。原理相同:具有參數共享的局部模式偵測。一維卷積在一些現代架構(ConvNeXt、Hyena)中被用作某些運算中注意力的高效替代方案。