असंरचित प्रूनिंग परिमाण (magnitude) के आधार पर व्यक्तिगत भारों को शून्य करती है (सबसे छोटे भार सबसे कम योगदान देते हैं)। इससे विरल (sparse) भार matrices बनती हैं। चुनौती: मानक हार्डवेयर विरल गणनाओं को कुशलतापूर्वक नहीं संभालता, इसलिए 50% प्रून किया गया मॉडल GPU पर 2x तेज़ नहीं चलता — स्पीडअप के लिए विशेष विरल गणना पुस्तकालयों या हार्डवेयर की आवश्यकता होती है। यह असंरचित प्रूनिंग के व्यावहारिक लाभ को सीमित करता है।
संरचित प्रूनिंग पूरे न्यूरॉन, attention हेड, या परतें हटाती है। इससे एक छोटा सघन (dense) मॉडल बनता है जो विरल गणना समर्थन की आवश्यकता के बिना मानक हार्डवेयर पर तेज़ चलता है। शोध दर्शाता है कि कई attention हेड अनावश्यक हैं — Transformer में 20–40% हेड हटाने से अक्सर प्रदर्शन पर न्यूनतम प्रभाव पड़ता है। कुछ हेड लगातार दूसरों की तुलना में अधिक योगदान देते हैं, और ग्रेडिएंट-आधारित महत्व स्कोर के माध्यम से महत्वपूर्ण हेड की पहचान की जा सकती है।
तीनों कम्प्रेशन तकनीकें अच्छी तरह से संयोजित होती हैं: अनावश्यक पैरामीटर प्रून करें, शेष भारों को कम सटीकता में quantize करें, और वैकल्पिक रूप से मूल मॉडल से distill करके किसी भी गुणवत्ता हानि को पुनर्प्राप्त करें। यह पाइपलाइन मॉडल को उसके मूल आकार के 10–20% तक कम कर सकती है जबकि 95%+ क्षमता बनाए रखती है। क्रम मायने रखता है: आमतौर पर पहले प्रून करें, फिर प्रून किए गए मॉडल को quantize करें, फिर गुणवत्ता पुनर्प्राप्त करने के लिए fine-tune करें।