प्रूनिंग (Pruning): परिभाषा और अर्थ — AI विकी

एक प्रशिक्षित मॉडल से अनावश्यक पैरामीटर (भार, न्यूरॉन, या पूरी परतें) हटाना ताकि वह छोटा और तेज़ हो जाए बिना गुणवत्ता में महत्वपूर्ण गिरावट के। पेड़ की छँटाई की तरह: उन शाखाओं को काटें जो सबसे कम योगदान देती हैं और पेड़ स्वस्थ रहता है। संरचित प्रूनिंग पूरे न्यूरॉन या attention हेड हटाती है। असंरचित प्रूनिंग व्यक्तिगत भारों को शून्य कर देती है।

यह क्यों मायने रखता है

प्रूनिंग quantization और distillation के साथ एक मॉडल कम्प्रेशन तकनीक है। मुख्य अंतर्दृष्टि: अधिकांश न्यूरल नेटवर्क ओवरपैरामीटराइज़्ड होते हैं — कई भार आउटपुट में बहुत कम योगदान देते हैं। "लॉटरी टिकट हाइपोथेसिस" सुझाव देती है कि एक बड़े नेटवर्क के भीतर, एक बहुत छोटा सबनेटवर्क मौजूद है जो मूल के प्रदर्शन की बराबरी कर सकता है। प्रूनिंग उस सबनेटवर्क को खोजती और रखती है।

गहन अध्ययन

असंरचित प्रूनिंग परिमाण (magnitude) के आधार पर व्यक्तिगत भारों को शून्य करती है (सबसे छोटे भार सबसे कम योगदान देते हैं)। इससे विरल (sparse) भार matrices बनती हैं। चुनौती: मानक हार्डवेयर विरल गणनाओं को कुशलतापूर्वक नहीं संभालता, इसलिए 50% प्रून किया गया मॉडल GPU पर 2x तेज़ नहीं चलता — स्पीडअप के लिए विशेष विरल गणना पुस्तकालयों या हार्डवेयर की आवश्यकता होती है। यह असंरचित प्रूनिंग के व्यावहारिक लाभ को सीमित करता है।

संरचित प्रूनिंग

संरचित प्रूनिंग पूरे न्यूरॉन, attention हेड, या परतें हटाती है। इससे एक छोटा सघन (dense) मॉडल बनता है जो विरल गणना समर्थन की आवश्यकता के बिना मानक हार्डवेयर पर तेज़ चलता है। शोध दर्शाता है कि कई attention हेड अनावश्यक हैं — Transformer में 20–40% हेड हटाने से अक्सर प्रदर्शन पर न्यूनतम प्रभाव पड़ता है। कुछ हेड लगातार दूसरों की तुलना में अधिक योगदान देते हैं, और ग्रेडिएंट-आधारित महत्व स्कोर के माध्यम से महत्वपूर्ण हेड की पहचान की जा सकती है।

प्रूनिंग + Quantization + Distillation

तीनों कम्प्रेशन तकनीकें अच्छी तरह से संयोजित होती हैं: अनावश्यक पैरामीटर प्रून करें, शेष भारों को कम सटीकता में quantize करें, और वैकल्पिक रूप से मूल मॉडल से distill करके किसी भी गुणवत्ता हानि को पुनर्प्राप्त करें। यह पाइपलाइन मॉडल को उसके मूल आकार के 10–20% तक कम कर सकती है जबकि 95%+ क्षमता बनाए रखती है। क्रम मायने रखता है: आमतौर पर पहले प्रून करें, फिर प्रून किए गए मॉडल को quantize करें, फिर गुणवत्ता पुनर्प्राप्त करने के लिए fine-tune करें।

प्रूनिंग (Pruning)

यह क्यों मायने रखता है

गहन अध्ययन

संरचित प्रूनिंग

प्रूनिंग + Quantization + Distillation

संबंधित अवधारणाएँ