CNN：定义与含义 — AI 维基

一种专为处理网格状数据（图像、音频频谱图）而设计的神经网络架构，通过在输入上滑动小型滤波器（卷积核）来检测局部模式，如边缘、纹理和形状。从2012年（AlexNet）到约2020年视觉Transformer出现之前，CNN主导了计算机视觉领域。它们在生产环境中仍被广泛使用，尤其是在边缘设备上。

为什么重要

CNN引发了深度学习革命。AlexNet在2012年ImageNet竞赛中的胜利证明深度神经网络可以大幅超越手工设计的特征，引发了当前的AI热潮。理解CNN有助于理解Transformer为何有效（许多相同的理念——分层特征、参数共享——同样适用），而且CNN在资源受限设备上的许多视觉任务中仍然是最佳选择。

深度解析

CNN的核心操作是卷积：一个小型滤波器（比如3×3像素）在图像上滑动，在每个位置计算点积以检测特定模式。早期层学习简单模式（边缘、色彩梯度）。更深层将这些组合成越来越复杂的特征（眼睛、车轮、面孔）。池化层在卷积层之间进行下采样，减少空间维度的同时保留重要特征。

CNN为何有效

两个关键属性使CNN高效：平移等变性（猫就是猫，无论它出现在图像的哪个位置——同一个滤波器在各处都能检测到它）和局部性（相邻像素比远处像素更相关）。与全连接网络相比，这些属性大幅减少了参数数量，使CNN能够处理高分辨率图像。

CNN在图像之外的应用

CNN不仅限于图像。一维卷积处理序列（音频波形、时间序列）。WaveNet（用于语音合成）和一些文本分类模型使用一维CNN。在音频领域，频谱图被视为二维图像并用标准二维CNN处理。即使在Transformer时代，一些混合架构也使用卷积层进行局部特征提取，然后馈入注意力层。

CNN

为什么重要

深度解析

CNN为何有效

CNN在图像之外的应用

相关概念