CNN的核心操作是卷积:一个小型滤波器(比如3×3像素)在图像上滑动,在每个位置计算点积以检测特定模式。早期层学习简单模式(边缘、色彩梯度)。更深层将这些组合成越来越复杂的特征(眼睛、车轮、面孔)。池化层在卷积层之间进行下采样,减少空间维度的同时保留重要特征。
两个关键属性使CNN高效:平移等变性(猫就是猫,无论它出现在图像的哪个位置——同一个滤波器在各处都能检测到它)和局部性(相邻像素比远处像素更相关)。与全连接网络相比,这些属性大幅减少了参数数量,使CNN能够处理高分辨率图像。
CNN不仅限于图像。一维卷积处理序列(音频波形、时间序列)。WaveNet(用于语音合成)和一些文本分类模型使用一维CNN。在音频领域,频谱图被视为二维图像并用标准二维CNN处理。即使在Transformer时代,一些混合架构也使用卷积层进行局部特征提取,然后馈入注意力层。