CNN का मुख्य ऑपरेशन कन्वोल्यूशन है: एक छोटा फ़िल्टर (मान लें 3×3 पिक्सेल) छवि पर स्लाइड करता है, प्रत्येक स्थिति पर एक विशिष्ट पैटर्न का पता लगाने के लिए डॉट प्रोडक्ट की गणना करता है। प्रारंभिक परतें सरल पैटर्न (किनारे, रंग ग्रेडिएंट) सीखती हैं। गहरी परतें इन्हें तेज़ी से जटिल विशेषताओं (आँखें, पहिये, चेहरे) में जोड़ती हैं। Pooling परतें कन्वोल्यूशन परतों के बीच downsampling करती हैं, महत्वपूर्ण विशेषताओं को बनाए रखते हुए स्थानिक आयामों को कम करती हैं।
दो प्रमुख गुण CNNs को कुशल बनाते हैं: translation equivariance (एक बिल्ली एक बिल्ली है चाहे वह छवि में कहीं भी दिखाई दे — वही फ़िल्टर इसे हर जगह पकड़ता है) और स्थानीयता (पास के पिक्सेल दूर के पिक्सेल से अधिक संबंधित हैं)। ये गुण पूर्ण रूप से जुड़े नेटवर्क की तुलना में पैरामीटर की संख्या को काफी कम करते हैं, जिससे CNNs उच्च-रिज़ॉल्यूशन छवियों के लिए व्यावहारिक बनते हैं।
CNNs केवल छवियों तक सीमित नहीं हैं। 1D कन्वोल्यूशन अनुक्रमों (ऑडियो तरंगरूप, टाइम सीरीज़) को प्रोसेस करते हैं। WaveNet (स्पीच सिंथेसिस के लिए) और कुछ टेक्स्ट क्लासिफिकेशन मॉडल 1D CNNs का उपयोग करते हैं। ऑडियो में, स्पेक्ट्रोग्राम को 2D छवियों के रूप में माना जाता है और मानक 2D CNNs के साथ प्रोसेस किया जाता है। Transformer युग में भी, कुछ हाइब्रिड आर्किटेक्चर attention परतों में फ़ीड करने से पहले स्थानीय फ़ीचर एक्सट्रैक्शन के लिए कन्वोल्यूशनल परतों का उपयोग करते हैं।