Zubnet AIसीखेंWiki › Precision & Recall
मूल तत्व

Precision & Recall

इसे भी कहा जाता है: F1 Score, Confusion Matrix
Classifiers के मूल्यांकन के लिए दो पूरक metrics। Precision उत्तर देता है "model ने जो items positive flag किए, उनमें से कितने वास्तव में हैं?" Recall उत्तर देता है "सभी actual positives में से, model ने कितने खोजे?" उच्च precision वाला spam filter शायद ही कभी real email को spam mark करता है। उच्च recall वाला अधिकांश spam पकड़ता है। F1 score उनका harmonic mean है — दोनों को balance करने वाला एक single number।

यह क्यों मायने रखता है

Accuracy अकेले भ्रामक है। एक model जो कभी "fraud" predict नहीं करता, 99.9% accuracy प्राप्त करता है यदि केवल 0.1% transactions fraudulent हैं — लेकिन यह पूरी तरह बेकार है। Precision और recall trade-offs प्रकट करते हैं: अधिक fraud पकड़ना (higher recall) का मतलब है अधिक false alarms (lower precision), और vice versa। Production में हर classification system इसी trade-off के आधार पर tune किया जाता है।

गहन अध्ययन

Confusion matrix predictions को चार categories में organize करता है: True Positives (सही ढंग से flagged), False Positives (गलत तरीके से flagged — Type I error), True Negatives (सही ढंग से passed), और False Negatives (missed — Type II error)। Precision = TP / (TP + FP)। Recall = TP / (TP + FN)। F1 = 2 · (Precision · Recall) / (Precision + Recall)।

व्यवहार में Trade-off

अधिकांश classifiers confidence score output करते हैं, और आप एक threshold चुनते हैं जिसके ऊपर "positive" predict करना है। Low threshold अधिक positives पकड़ता है (high recall) लेकिन अधिक false positives बनाता है (low precision)। High threshold अधिक selective है (high precision) लेकिन अधिक positives miss करता है (low recall)। Optimal threshold costs पर निर्भर करता है: medical screening में, बीमारी miss करना (false negative) false alarm से बदतर है। Spam filtering में, real email को spam mark करना (false positive) spam आने देने से बदतर है।

Binary से परे

Multi-class problems के लिए, precision और recall प्रति class compute होते हैं और फिर averaged होते हैं। Macro-averaging सभी classes को समान मानता है। Micro-averaging class frequency से weight करता है। Weighted averaging class support से weight करता है। चुनाव मायने रखता है: यदि आपके data का 90% class A है, तो micro-average class A performance से dominated होगा, संभावित रूप से minority classes पर खराब performance को छिपाता है। AI fairness work में, per-class metrics यह सुनिश्चित करने के लिए आवश्यक हैं कि model सभी groups के लिए अच्छा काम करता है।

संबंधित अवधारणाएँ

← सभी शब्द
← Positional Encoding Prompt Caching →