Zubnet AIसीखेंWiki › Pooling
मूल तत्व

Pooling

इसे भी कहा जाता है: Max Pooling, Average Pooling
एक ऑपरेशन जो एक क्षेत्र को एक single मान में सारांशित करके डेटा के स्थानिक आयामों को कम करता है। Max pooling प्रत्येक क्षेत्र में अधिकतम मान लेता है। Average pooling माध्य लेता है। CNNs में, pooling लेयर्स convolutional लेयर्स के बीच feature maps को downsample करते हैं। Transformers में, pooling टोकन प्रतिनिधित्वों को एक single वेक्टर में संयोजित करता है (जैसे, classification के लिए)।

यह क्यों मायने रखता है

Pooling वह है जिससे न्यूरल नेटवर्क स्थानीय features से वैश्विक समझ तक जाते हैं। एक CNN 224×224 feature maps से शुरू हो सकता है और अंतिम लेयर तक 7×7 तक pool कर सकता है, progressively स्थानिक जानकारी का सारांश देते हुए। NLP में, टोकन embeddings पर mean pooling टोकन प्रतिनिधित्वों के अनुक्रम से एक single sentence embedding बनाने का मानक तरीका है।

गहन अध्ययन

CNNs में: stride 2 के साथ 2×2 max pool हर 2×2 क्षेत्र लेता है, अधिकतम मान रखता है, और प्रत्येक स्थानिक आयाम को आधा कर देता है। यह दो चीज़ें हासिल करता है: translation invariance (इनपुट में छोटे बदलाव आउटपुट नहीं बदलते) और dimensionality reduction (बाद की लेयर्स में प्रोसेस करने के लिए कम मान)। Average pooling वही करता है लेकिन माध्य लेता है, जो अधिक जानकारी संरक्षित करता है लेकिन noise के प्रति कम robust है।

NLP में Pooling

एक चर-लंबाई टोकन अनुक्रम से एक निश्चित-आकार embedding बनाने के लिए, आपको pool करने की आवश्यकता है। सामान्य रणनीतियाँ: [CLS] टोकन pooling (एक विशेष टोकन के प्रतिनिधित्व का उपयोग करें, जैसे BERT में), mean pooling (सभी टोकन प्रतिनिधित्वों का औसत — आमतौर पर sentence embeddings के लिए सबसे अच्छा), max pooling (टोकनों में element-wise अधिकतम लें), और weighted pooling (attention scores द्वारा टोकनों को भार दें)। अधिकांश embedding मॉडल अपनी सरलता और प्रभावशीलता के लिए mean pooling का उपयोग करते हैं।

Global Average Pooling

आधुनिक विज़न आर्किटेक्चर में, global average pooling उन fully connected लेयर्स को प्रतिस्थापित करता है जो पुराने CNNs classification के लिए उपयोग करते थे। अंतिम feature map को एक वेक्टर में flatten करने के बजाय (जो लाखों पैरामीटर बनाता है), global average pooling प्रत्येक feature map channel को एक single संख्या में औसत करता है। यह बिना किसी सीखे गए पैरामीटर के एक compact प्रतिनिधित्व उत्पन्न करता है, जो एक मजबूत regularizer के रूप में कार्य करता है। Vision Transformers [CLS] टोकन के साथ एक समान दृष्टिकोण का उपयोग करते हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← PixVerse Positional Encoding →