एक क्लासिफ़ायर कक्षाओं पर एक प्रायिकता वितरण आउटपुट करता है। बाइनरी क्लासिफिकेशन के लिए, 0 और 1 के बीच एक एकल संख्या पर्याप्त है (पॉज़िटिव क्लास की प्रायिकता)। मल्टी-क्लास के लिए, मॉडल प्रत्येक क्लास के लिए एक प्रायिकता आउटपुट करता है, आम तौर पर softmax फ़ंक्शन का उपयोग करके यह सुनिश्चित करता है कि उनका योग 1 हो। अनुमानित क्लास आमतौर पर सबसे अधिक प्रायिकता वाली होती है, लेकिन आप false positives बनाम false negatives के प्रति अपनी सहनशीलता के आधार पर निर्णय सीमा को समायोजित कर सकते हैं।
आधुनिक LLMs आश्चर्यजनक रूप से अच्छे क्लासिफ़ायर हैं। एक समर्पित मॉडल प्रशिक्षित करने के बजाय, आप एक LLM को प्रॉम्प्ट कर सकते हैं: "इस ग्राहक समीक्षा को सकारात्मक, नकारात्मक या तटस्थ के रूप में वर्गीकृत करें।" कई क्लासिफिकेशन कार्यों के लिए, यह ज़ीरो-शॉट दृष्टिकोण उद्देश्य-निर्मित क्लासिफ़ायर से मेल खाता है या उनसे बेहतर प्रदर्शन करता है, विशेष रूप से जब कार्य को बारीकियों या संदर्भ की समझ की आवश्यकता होती है। ट्रेड-ऑफ लागत और विलंबता है — एक LLM API कॉल स्थानीय रूप से एक छोटा क्लासिफ़ायर चलाने की तुलना में बहुत अधिक महंगा है।
Accuracy (सही प्रतिशत) सबसे सहज मेट्रिक है लेकिन भ्रामक हो सकती है। यदि 99% ईमेल स्पैम नहीं हैं, तो एक मॉडल जो हमेशा "स्पैम नहीं" भविष्यवाणी करता है, 99% accuracy प्राप्त करता है लेकिन शून्य स्पैम पकड़ता है। Precision (अनुमानित positives में से, कितने सही हैं), recall (वास्तविक positives में से, कितने पाए गए) और F1 (precision और recall का हार्मोनिक माध्य) अधिक पूर्ण तस्वीर देते हैं। सही मेट्रिक आपके विशिष्ट अनुप्रयोग में त्रुटियों की लागत पर निर्भर करती है।