Zubnet AIसीखेंWiki › परत (Layer)
मूल तत्व

परत (Layer)

इसे भी कहा जाता है: Hidden Layer, न्यूरल नेटवर्क परत
न्यूरॉनों का एक समूह जो न्यूरल नेटवर्क में एक विशिष्ट अमूर्तता स्तर पर डेटा को प्रोसेस करता है। इनपुट परत कच्चा डेटा प्राप्त करती है। Hidden परतें (बीच वाली) उत्तरोत्तर अमूर्त प्रतिनिधित्व सीखती हैं। आउटपुट परत अंतिम परिणाम उत्पन्न करती है। "डीप" लर्निंग का अर्थ है कई hidden परतें — आधुनिक LLMs में 32 से 128+ परतें होती हैं।

यह क्यों मायने रखता है

परतें वह पदानुक्रम बनाती हैं जो डीप लर्निंग को शक्तिशाली बनाता है। शुरुआती परतें सरल पैटर्न सीखती हैं (छवियों में किनारे, टेक्स्ट में शब्द खंड)। बीच की परतें इन्हें अवधारणाओं में संयोजित करती हैं (चेहरे, वाक्यांश)। गहरी परतें अवधारणाओं को उच्च-स्तरीय समझ में संयोजित करती हैं (दृश्य पहचान, तर्क)। नेटवर्क की गहराई निर्धारित करती है कि वह कितने जटिल पैटर्न सीख सकता है।

गहन अध्ययन

एक Transformer में, प्रत्येक परत (जिसे "ब्लॉक" कहा जाता है) दो उप-परतों से मिलकर बनती है: एक मल्टी-हेड attention परत (जो टोकनों के बीच जानकारी मिलाती है) और एक feedforward नेटवर्क (जो प्रत्येक टोकन को स्वतंत्र रूप से प्रोसेस करता है)। प्रत्येक उप-परत में एक अवशिष्ट कनेक्शन (इनपुट को आउटपुट में वापस जोड़ा जाता है) और सामान्यीकरण होता है। एक 32-परत Transformer इस attention+FFN पैटर्न को 32 बार लागू करता है, हर बार प्रतिनिधित्व को परिष्कृत करता है।

परतों में क्या होता है

शोध ने LLMs में एक मोटा पैटर्न उजागर किया है: शुरुआती परतें वाक्य-विन्यास और सतही पैटर्न संभालती हैं, मध्य परतें अर्थपूर्ण अर्थ और संस्था पहचान संभालती हैं, और अंतिम परतें कार्य-विशिष्ट तर्क और आउटपुट फ़ॉर्मेटिंग संभालती हैं। यह कोई कठोर सीमा नहीं है — जानकारी अवशिष्ट कनेक्शन के माध्यम से सभी परतों से बहती है — लेकिन यह बताती है कि क्यों कुछ फ़ाइन-ट्यूनिंग तकनीकें केवल कुछ परतों को संशोधित करती हैं और क्यों मध्य परतों को हटाने से शुरुआती या अंतिम परतों को हटाने की तुलना में अधिक नुकसान होता है।

चौड़ाई बनाम गहराई

नेटवर्क की "चौड़ाई" प्रति परत न्यूरॉनों की संख्या (मॉडल आयाम) है। इसकी "गहराई" परतों की संख्या है। दोनों मायने रखते हैं, लेकिन वे अलग-अलग योगदान देते हैं: चौड़ी परतें एक साथ अधिक विशेषताओं का प्रतिनिधित्व कर सकती हैं, जबकि गहरे नेटवर्क अधिक जटिल, संरचनात्मक पैटर्न सीख सकते हैं। आधुनिक LLMs चौड़े (4096–8192 आयाम) और गहरे (32–128 परतें) दोनों होते हैं। स्केलिंग कानून सुझाव देते हैं कि इष्टतम प्रदर्शन के लिए चौड़ाई और गहराई को एक साथ बढ़ाया जाना चाहिए।

संबंधित अवधारणाएँ

← सभी शब्द
← न्यूरॉन पाठ्यक्रम शिक्षण (Curriculum Learning) →
ESC