मापता है कि मॉडल टेक्स्ट की कितनी अच्छी तरह भविष्यवाणी करता है। exp(average cross-entropy loss)। दर्शाता है "मॉडल कितने टोकन में से चुन रहा है।" कम = बेहतर।
यह क्यों मायने रखता है
कच्ची text modeling क्षमता की तुलना के लिए सबसे मौलिक मेट्रिक। लेकिन उपयोगिता या सुरक्षा को नहीं मापता।
गहन अध्ययन
सूत्र: PPL = exp(−(1/N) Σ log P(token_i | context_i))। केवल समान tokenizer/eval set वाले मॉडल की तुलना की जा सकती है। Aligned मॉडल की perplexity अक्सर base मॉडल से अधिक होती है — यह feature है, bug नहीं।