Zubnet AI学习Wiki › CNN
模型

CNN

别名:卷积神经网络、ConvNet
一种专为处理网格状数据(图像、音频频谱图)而设计的神经网络架构,通过在输入上滑动小型滤波器(卷积核)来检测局部模式,如边缘、纹理和形状。从2012年(AlexNet)到约2020年视觉Transformer出现之前,CNN主导了计算机视觉领域。它们在生产环境中仍被广泛使用,尤其是在边缘设备上。

为什么重要

CNN引发了深度学习革命。AlexNet在2012年ImageNet竞赛中的胜利证明深度神经网络可以大幅超越手工设计的特征,引发了当前的AI热潮。理解CNN有助于理解Transformer为何有效(许多相同的理念——分层特征、参数共享——同样适用),而且CNN在资源受限设备上的许多视觉任务中仍然是最佳选择。

深度解析

CNN的核心操作是卷积:一个小型滤波器(比如3×3像素)在图像上滑动,在每个位置计算点积以检测特定模式。早期层学习简单模式(边缘、色彩梯度)。更深层将这些组合成越来越复杂的特征(眼睛、车轮、面孔)。池化层在卷积层之间进行下采样,减少空间维度的同时保留重要特征。

CNN为何有效

两个关键属性使CNN高效:平移等变性(猫就是猫,无论它出现在图像的哪个位置——同一个滤波器在各处都能检测到它)和局部性(相邻像素比远处像素更相关)。与全连接网络相比,这些属性大幅减少了参数数量,使CNN能够处理高分辨率图像。

CNN在图像之外的应用

CNN不仅限于图像。一维卷积处理序列(音频波形、时间序列)。WaveNet(用于语音合成)和一些文本分类模型使用一维CNN。在音频领域,频谱图被视为二维图像并用标准二维CNN处理。即使在Transformer时代,一些混合架构也使用卷积层进行局部特征提取,然后馈入注意力层。

相关概念

← 所有术语
← CLIP Cohere →