एक छोटे "student" मॉडल को बड़े "teacher" मॉडल की नकल करने के लिए प्रशिक्षित करना, कठोर लेबल के बजाय teacher की soft probability distributions से सीखकर। Soft outputs श्रेणियों के बीच ऐसे संबंध एनकोड करते हैं जो कठोर लेबल व्यक्त नहीं करते।
यह क्यों मायने रखता है
डिस्टिलेशन शक्तिशाली AI को सुलभ बनाता है। एक 70B→7B डिस्टिलेशन 10% लागत पर 90% क्षमता प्राप्त कर सकता है। कई स्थानीय रूप से चलने वाले मॉडल frontier मॉडल से distilled हैं।
गहन अध्ययन
Hinton et al. (2015) की अंतर्दृष्टि: teacher की probabilities में "dark knowledge" होता है। LLM के लिए: teacher से responses उत्पन्न करो, student को उन पर fine-tune करो। डिस्टिलेशन बनाम quantization: डिस्टिलेशन एक नया छोटा मॉडल बनाता है; quantization उसी मॉडल की precision को कम करता है।