CNN：定義與含義 — AI 維基

一種設計用於處理網格狀資料（影像、音訊頻譜圖）的神經網路架構，透過在輸入上滑動小型濾波器（核）來偵測邊緣、紋理和形狀等局部模式。CNN 從 2012 年（AlexNet）到 2020 年左右 Vision Transformer 出現之前一直主導電腦視覺。它們在生產環境中仍被廣泛使用，尤其是在邊緣裝置上。

為什麼重要

CNN 掀起了深度學習革命。AlexNet 在 2012 年 ImageNet 上的勝利證明，深度神經網路可以大幅超越手工設計的特徵，引發了當前的 AI 熱潮。理解 CNN 有助於理解 Transformer 為何有效（許多相同的概念——分層特徵、參數共享——同樣適用），而且 CNN 對於資源受限裝置上的許多視覺任務仍然是最佳選擇。

深度解析

CNN 的核心運算是卷積：一個小型濾波器（例如 3×3 像素）在影像上滑動，在每個位置計算內積以偵測特定模式。早期層學習簡單模式（邊緣、色彩漸層）。更深的層將這些組合成越來越複雜的特徵（眼睛、車輪、面孔）。池化層在卷積層之間進行降採樣，減少空間維度同時保留重要特徵。

CNN 為何有效

兩個關鍵特性使 CNN 高效：平移等變性（無論貓出現在影像的哪個位置，貓就是貓——同一個濾波器在各處都能偵測到它）和局部性（鄰近的像素比遠處的像素更相關）。這些特性大幅減少了與全連接網路相比所需的參數數量，使 CNN 在高解析度影像上可行。

影像以外的 CNN

CNN 不限於影像。一維卷積處理序列（音訊波形、時間序列）。WaveNet（用於語音合成）和一些文本分類模型使用一維 CNN。在音訊方面，頻譜圖被視為二維影像並用標準二維 CNN 處理。即使在 Transformer 時代，一些混合架構在將資料饋入注意力層之前使用卷積層進行局部特徵提取。

CNN

為什麼重要

深度解析

CNN 為何有效

影像以外的 CNN

相關概念