卷积：定义与含义 — AI 维基

一种在输入上滑动小滤波器（核）以检测局部模式的数学运算。在图像中，一个3×3的核滑过每个位置，计算与底层像素的点积以产出特征图。不同的核检测不同的模式：水平边缘、垂直边缘、纹理，以及在更深层中最终检测到的复杂特征如眼睛或轮子。

为什么重要

卷积是使计算机视觉成功的运算。它编码了两个强大的假设：局部性（附近的像素相关）和平移等变性（模式不论出现在哪里都是相同的）。与全连接层相比，这些假设大幅减少了参数数量，使处理高分辨率图像成为可行。即使在Transformer时代，卷积仍在许多混合架构中使用。

用3×3核的卷积：在每个位置，将9个核值与9个底层输入值相乘并求和。这产出一个输出值。将核滑到下一个位置并重复。一个核产出一个特征图（检测一种模式）。多个核产出多个特征图。步幅（核每步移动多远）和填充（如何处理边缘）是控制输出大小的额外参数。

在CNN中，早期层使用小核检测简单模式。每一个后续层在前一层的特征图上卷积，检测逐渐复杂的模式。第1层：边缘。第2层：角和纹理（边缘的组合）。第3层：目标部件（纹理的组合）。第4层：目标（部件的组合）。这种层次化特征学习是CNN在视觉领域成功的根本机制。

卷积不限于2D图像。1D卷积处理序列（音频波形、时间序列、文本），沿一个维度滑动核。3D卷积处理体积数据（视频、医学扫描），沿三个维度滑动。原理相同：带参数共享的局部模式检测。1D卷积在一些现代架构（ConvNeXt、Hyena）中被用作某些操作中注意力的高效替代。