3×3 kernel के साथ एक convolution: प्रत्येक position पर, 9 kernel values को 9 underlying input values से गुणा करें और उनका योग करें। यह एक output value उत्पन्न करता है। Kernel को अगली position पर slide करें और दोहराएँ। एक single kernel एक feature map उत्पन्न करता है (एक pattern detect करता है)। Multiple kernels multiple feature maps उत्पन्न करते हैं। Stride (kernel प्रत्येक step में कितना आगे बढ़ता है) और padding (edges को कैसे handle करना है) अतिरिक्त parameters हैं जो output size को नियंत्रित करते हैं।
एक CNN में, शुरुआती layers सरल patterns detect करने के लिए छोटे kernels का उपयोग करती हैं। प्रत्येक subsequent layer पिछली layer के feature maps पर convolve करती है, उत्तरोत्तर अधिक जटिल patterns detect करती है। Layer 1: edges। Layer 2: corners और textures (edges के combinations)। Layer 3: object parts (textures के combinations)। Layer 4: objects (parts के combinations)। यह hierarchical feature learning CNNs की vision में सफलता के पीछे मूलभूत mechanism है।
Convolutions 2D images तक सीमित नहीं हैं। 1D convolutions sequences (audio waveforms, time series, text) को process करते हैं, एक dimension के साथ kernel slide करते हैं। 3D convolutions volumes (video, medical scans) को process करते हैं, तीन dimensions के साथ slide करते हैं। सिद्धांत समान है: parameter sharing के साथ local pattern detection। 1D convolutions कुछ आधुनिक architectures (ConvNeXt, Hyena) में कुछ operations के लिए attention के कुशल alternatives के रूप में उपयोग किए जाते हैं।