Zubnet AIसीखेंWiki › CNN
मॉडल

CNN

इसे भी कहा जाता है: Convolutional Neural Network, ConvNet
ग्रिड-जैसे डेटा (छवियाँ, ऑडियो स्पेक्ट्रोग्राम) को प्रोसेस करने के लिए डिज़ाइन किया गया न्यूरल नेटवर्क आर्किटेक्चर जो इनपुट पर छोटे फ़िल्टर (कर्नल) को स्लाइड करके किनारों, बनावटों और आकृतियों जैसे स्थानीय पैटर्न का पता लगाता है। CNNs ने 2012 (AlexNet) से लेकर लगभग 2020 तक Vision Transformers के उभरने तक कंप्यूटर विज़न पर प्रभुत्व किया। वे अभी भी प्रोडक्शन में व्यापक रूप से उपयोग किए जाते हैं, विशेष रूप से एज डिवाइस पर।

यह क्यों मायने रखता है

CNNs ने डीप लर्निंग क्रांति की शुरुआत की। AlexNet की 2012 ImageNet जीत ने साबित किया कि गहरे न्यूरल नेटवर्क हाथ से इंजीनियर की गई विशेषताओं को नाटकीय रूप से पछाड़ सकते हैं, जिससे वर्तमान AI उछाल शुरू हुआ। CNNs को समझना आपको यह समझने में मदद करता है कि Transformers क्यों काम करते हैं (कई समान विचार — पदानुक्रमिक विशेषताएँ, पैरामीटर शेयरिंग — लागू होते हैं), और संसाधन-सीमित उपकरणों पर कई विज़न कार्यों के लिए CNNs सबसे अच्छा विकल्प बने हुए हैं।

गहन अध्ययन

CNN का मुख्य ऑपरेशन कन्वोल्यूशन है: एक छोटा फ़िल्टर (मान लें 3×3 पिक्सेल) छवि पर स्लाइड करता है, प्रत्येक स्थिति पर एक विशिष्ट पैटर्न का पता लगाने के लिए डॉट प्रोडक्ट की गणना करता है। प्रारंभिक परतें सरल पैटर्न (किनारे, रंग ग्रेडिएंट) सीखती हैं। गहरी परतें इन्हें तेज़ी से जटिल विशेषताओं (आँखें, पहिये, चेहरे) में जोड़ती हैं। Pooling परतें कन्वोल्यूशन परतों के बीच downsampling करती हैं, महत्वपूर्ण विशेषताओं को बनाए रखते हुए स्थानिक आयामों को कम करती हैं।

CNNs क्यों काम करते हैं

दो प्रमुख गुण CNNs को कुशल बनाते हैं: translation equivariance (एक बिल्ली एक बिल्ली है चाहे वह छवि में कहीं भी दिखाई दे — वही फ़िल्टर इसे हर जगह पकड़ता है) और स्थानीयता (पास के पिक्सेल दूर के पिक्सेल से अधिक संबंधित हैं)। ये गुण पूर्ण रूप से जुड़े नेटवर्क की तुलना में पैरामीटर की संख्या को काफी कम करते हैं, जिससे CNNs उच्च-रिज़ॉल्यूशन छवियों के लिए व्यावहारिक बनते हैं।

छवियों से परे CNNs

CNNs केवल छवियों तक सीमित नहीं हैं। 1D कन्वोल्यूशन अनुक्रमों (ऑडियो तरंगरूप, टाइम सीरीज़) को प्रोसेस करते हैं। WaveNet (स्पीच सिंथेसिस के लिए) और कुछ टेक्स्ट क्लासिफिकेशन मॉडल 1D CNNs का उपयोग करते हैं। ऑडियो में, स्पेक्ट्रोग्राम को 2D छवियों के रूप में माना जाता है और मानक 2D CNNs के साथ प्रोसेस किया जाता है। Transformer युग में भी, कुछ हाइब्रिड आर्किटेक्चर attention परतों में फ़ीड करने से पहले स्थानीय फ़ीचर एक्सट्रैक्शन के लिए कन्वोल्यूशनल परतों का उपयोग करते हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← CLIP Cohere →