Zubnet AI學習Wiki › Convolution
基礎

Convolution

別名:Conv、卷積層、核、濾波器
一種數學運算,將一個小型濾波器(核)滑過輸入以偵測局部模式。在影像中,一個 3×3 核滑過每個位置,計算與底層像素的內積以產生特徵圖。不同的核偵測不同的模式:水平邊緣、垂直邊緣、紋理,以及在更深層中最終偵測像眼睛或車輪等複雜特徵。

為什麼重要

卷積是使電腦視覺得以運作的運算。它編碼了兩個強大的假設:局部性(相鄰像素是相關的)和平移等變性(一個模式無論出現在哪裡都是一樣的)。這些假設與全連接層相比大幅減少了參數數量,使處理高解析度影像成為可行。即使在 Transformer 時代,卷積仍用於許多混合架構中。

深度解析

使用 3×3 核的卷積:在每個位置,將 9 個核值與 9 個底層輸入值相乘並求和。這產生一個輸出值。將核滑動到下一個位置並重複。單個核產生一個特徵圖(偵測一種模式)。多個核產生多個特徵圖。步幅(核每步移動多遠)和填充(如何處理邊緣)是控制輸出大小的額外參數。

深度與層次結構

在 CNN 中,早期層使用小型核偵測簡單模式。每個後續層在前一層的特徵圖上進行卷積,偵測逐漸複雜的模式。第 1 層:邊緣。第 2 層:角落和紋理(邊緣的組合)。第 3 層:物件部分(紋理的組合)。第 4 層:物件(部分的組合)。這種層次式特徵學習是 CNN 在視覺領域成功的基本機制。

一維和三維卷積

卷積不限於二維影像。一維卷積處理序列(音訊波形、時間序列、文字),沿一個維度滑動核。三維卷積處理體積資料(影片、醫學掃描),沿三個維度滑動。原理相同:具有參數共享的局部模式偵測。一維卷積在一些現代架構(ConvNeXt、Hyena)中被用作某些運算中注意力的高效替代方案。

相關概念

← 所有術語
ESC
Start typing to search...