用3×3核的卷积:在每个位置,将9个核值与9个底层输入值相乘并求和。这产出一个输出值。将核滑到下一个位置并重复。一个核产出一个特征图(检测一种模式)。多个核产出多个特征图。步幅(核每步移动多远)和填充(如何处理边缘)是控制输出大小的额外参数。
在CNN中,早期层使用小核检测简单模式。每一个后续层在前一层的特征图上卷积,检测逐渐复杂的模式。第1层:边缘。第2层:角和纹理(边缘的组合)。第3层:目标部件(纹理的组合)。第4层:目标(部件的组合)。这种层次化特征学习是CNN在视觉领域成功的根本机制。
卷积不限于2D图像。1D卷积处理序列(音频波形、时间序列、文本),沿一个维度滑动核。3D卷积处理体积数据(视频、医学扫描),沿三个维度滑动。原理相同:带参数共享的局部模式检测。1D卷积在一些现代架构(ConvNeXt、Hyena)中被用作某些操作中注意力的高效替代。