Zubnet AIसीखेंWiki › Convolution
मूल तत्व

Convolution

इसे भी कहा जाता है: Conv, Convolutional Layer, Kernel, Filter
एक गणितीय operation जो स्थानीय patterns का पता लगाने के लिए एक छोटे filter (kernel) को input पर slide करता है। Images में, एक 3×3 kernel हर position पर slide करता है, underlying pixels के साथ dot product compute करके एक feature map उत्पन्न करता है। Different kernels different patterns detect करते हैं: horizontal edges, vertical edges, textures, और अंततः deeper layers में आँखें या पहिये जैसी जटिल features।

यह क्यों मायने रखता है

Convolution वह operation है जिसने computer vision को काम करवाया। यह दो शक्तिशाली assumptions encode करता है: locality (पास के pixels संबंधित हैं) और translation equivariance (एक pattern वही है चाहे वह कहीं भी दिखे)। ये assumptions fully connected layers की तुलना में parameters की संख्या को नाटकीय रूप से कम करती हैं, जिससे high-resolution images को process करना संभव हो जाता है। Transformer युग में भी, convolutions कई hybrid architectures में उपयोग किए जाते हैं।

गहन अध्ययन

3×3 kernel के साथ एक convolution: प्रत्येक position पर, 9 kernel values को 9 underlying input values से गुणा करें और उनका योग करें। यह एक output value उत्पन्न करता है। Kernel को अगली position पर slide करें और दोहराएँ। एक single kernel एक feature map उत्पन्न करता है (एक pattern detect करता है)। Multiple kernels multiple feature maps उत्पन्न करते हैं। Stride (kernel प्रत्येक step में कितना आगे बढ़ता है) और padding (edges को कैसे handle करना है) अतिरिक्त parameters हैं जो output size को नियंत्रित करते हैं।

गहराई और पदानुक्रम

एक CNN में, शुरुआती layers सरल patterns detect करने के लिए छोटे kernels का उपयोग करती हैं। प्रत्येक subsequent layer पिछली layer के feature maps पर convolve करती है, उत्तरोत्तर अधिक जटिल patterns detect करती है। Layer 1: edges। Layer 2: corners और textures (edges के combinations)। Layer 3: object parts (textures के combinations)। Layer 4: objects (parts के combinations)। यह hierarchical feature learning CNNs की vision में सफलता के पीछे मूलभूत mechanism है।

1D और 3D Convolutions

Convolutions 2D images तक सीमित नहीं हैं। 1D convolutions sequences (audio waveforms, time series, text) को process करते हैं, एक dimension के साथ kernel slide करते हैं। 3D convolutions volumes (video, medical scans) को process करते हैं, तीन dimensions के साथ slide करते हैं। सिद्धांत समान है: parameter sharing के साथ local pattern detection। 1D convolutions कुछ आधुनिक architectures (ConvNeXt, Hyena) में कुछ operations के लिए attention के कुशल alternatives के रूप में उपयोग किए जाते हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← ControlNet Cosine Similarity →
ESC