基礎

Convolution

別名：Conv、卷積層、核、濾波器

一種數學運算，將一個小型濾波器（核）滑過輸入以偵測局部模式。在影像中，一個 3×3 核滑過每個位置，計算與底層像素的內積以產生特徵圖。不同的核偵測不同的模式：水平邊緣、垂直邊緣、紋理，以及在更深層中最終偵測像眼睛或車輪等複雜特徵。

為什麼重要

卷積是使電腦視覺得以運作的運算。它編碼了兩個強大的假設：局部性（相鄰像素是相關的）和平移等變性（一個模式無論出現在哪裡都是一樣的）。這些假設與全連接層相比大幅減少了參數數量，使處理高解析度影像成為可行。即使在 Transformer 時代，卷積仍用於許多混合架構中。

深度解析

使用 3×3 核的卷積：在每個位置，將 9 個核值與 9 個底層輸入值相乘並求和。這產生一個輸出值。將核滑動到下一個位置並重複。單個核產生一個特徵圖（偵測一種模式）。多個核產生多個特徵圖。步幅（核每步移動多遠）和填充（如何處理邊緣）是控制輸出大小的額外參數。

深度與層次結構

在 CNN 中，早期層使用小型核偵測簡單模式。每個後續層在前一層的特徵圖上進行卷積，偵測逐漸複雜的模式。第 1 層：邊緣。第 2 層：角落和紋理（邊緣的組合）。第 3 層：物件部分（紋理的組合）。第 4 層：物件（部分的組合）。這種層次式特徵學習是 CNN 在視覺領域成功的基本機制。

一維和三維卷積

卷積不限於二維影像。一維卷積處理序列（音訊波形、時間序列、文字），沿一個維度滑動核。三維卷積處理體積資料（影片、醫學掃描），沿三個維度滑動。原理相同：具有參數共享的局部模式偵測。一維卷積在一些現代架構（ConvNeXt、Hyena）中被用作某些運算中注意力的高效替代方案。

相關概念

← 所有術語