Zubnet AI学习Wiki › 卷积
基础

卷积

别名:Conv、卷积层、核、滤波器
一种在输入上滑动小滤波器(核)以检测局部模式的数学运算。在图像中,一个3×3的核滑过每个位置,计算与底层像素的点积以产出特征图。不同的核检测不同的模式:水平边缘、垂直边缘、纹理,以及在更深层中最终检测到的复杂特征如眼睛或轮子。

为什么重要

卷积是使计算机视觉成功的运算。它编码了两个强大的假设:局部性(附近的像素相关)和平移等变性(模式不论出现在哪里都是相同的)。与全连接层相比,这些假设大幅减少了参数数量,使处理高分辨率图像成为可行。即使在Transformer时代,卷积仍在许多混合架构中使用。

深度解析

用3×3核的卷积:在每个位置,将9个核值与9个底层输入值相乘并求和。这产出一个输出值。将核滑到下一个位置并重复。一个核产出一个特征图(检测一种模式)。多个核产出多个特征图。步幅(核每步移动多远)和填充(如何处理边缘)是控制输出大小的额外参数。

深度和层次结构

在CNN中,早期层使用小核检测简单模式。每一个后续层在前一层的特征图上卷积,检测逐渐复杂的模式。第1层:边缘。第2层:角和纹理(边缘的组合)。第3层:目标部件(纹理的组合)。第4层:目标(部件的组合)。这种层次化特征学习是CNN在视觉领域成功的根本机制。

1D和3D卷积

卷积不限于2D图像。1D卷积处理序列(音频波形、时间序列、文本),沿一个维度滑动核。3D卷积处理体积数据(视频、医学扫描),沿三个维度滑动。原理相同:带参数共享的局部模式检测。1D卷积在一些现代架构(ConvNeXt、Hyena)中被用作某些操作中注意力的高效替代。

← 所有术语