Zubnet AIसीखेंWiki › Softmax
मूल तत्व

Softmax

इसे भी कहा जाता है: Softmax Function, Normalized Exponentials
एक फ़ंक्शन जो कच्ची संख्याओं (logits) के वेक्टर को एक प्रायिकता वितरण में परिवर्तित करता है — सभी मान सकारात्मक हो जाते हैं और उनका योग 1 होता है। Softmax मानों के बीच अंतरों को बढ़ाता है: सबसे बड़े इनपुट को सबसे अधिक प्रायिकता मिलती है, और छोटे इनपुट को तेज़ी से घटती प्रायिकताएँ मिलती हैं। यह attention तंत्र, classification आउटपुट, और टोकन भविष्यवाणी में दिखाई देता है।

यह क्यों मायने रखता है

Softmax आधुनिक AI में हर जगह है। हर बार जब एक भाषा मॉडल अगले टोकन की भविष्यवाणी करता है, softmax कच्चे मॉडल आउटपुट को प्रायिकताओं में परिवर्तित करता है। हर attention head attention भार की गणना के लिए softmax का उपयोग करता है। हर क्लासिफ़ायर क्लास प्रायिकताएँ उत्पन्न करने के लिए softmax का उपयोग करता है। Softmax को समझने से आपको temperature, top-p sampling, और मॉडल गलत होने पर भी "आत्मविश्वासी" क्यों होते हैं, यह समझने में मदद मिलती है।

गहन अध्ययन

सूत्र: softmax(x_i) = exp(x_i) / ∑ exp(x_j)। घातांकीय अंतरों को बढ़ाता है: यदि एक logit 10 है और दूसरा 5 है, तो softmax के बाद अनुपात 2:1 नहीं बल्कि लगभग 150:1 है। यह विजेता-ले-जाता-अधिकांश व्यवहार इसलिए है कि मॉडल आत्मविश्वासी होते हैं — softmax स्वाभाविक रूप से समान के बजाय नुकीले वितरण उत्पन्न करता है।

Temperature और Softmax

Temperature को softmax से पहले logits को विभाजित करके लागू किया जाता है: softmax(x_i / T)। Temperature T=1 मानक है। T<1 वितरण को तीक्ष्ण बनाता है (अधिक आत्मविश्वासी, अधिक निर्धारक)। T>1 इसे समतल करता है (अधिक समान, अधिक यादृच्छिक)। LLM APIs में "temperature" पैरामीटर ठीक इसी तरह काम करता है — यह अगले टोकन का चयन करने वाले अंतिम softmax से पहले logits पर लागू किया जाने वाला एक स्केलर है।

संख्यात्मक स्थिरता

एक व्यावहारिक कार्यान्वयन विवरण: x के बड़े मानों के लिए exp(x) की गणना करने से overflow होता है। मानक समाधान softmax लागू करने से पहले सभी logits से अधिकतम मान घटाना है: softmax(x_i - max(x))। यह आउटपुट को नहीं बदलता (घटाया गया स्थिरांक अनुपात में रद्द हो जाता है) लेकिन संख्याओं को प्रबंधनीय सीमा में रखता है। हर प्रोडक्शन softmax कार्यान्वयन यह करता है, और यह उस तरह का विवरण है जो शून्य से निर्माण करते समय मायने रखता है।

संबंधित अवधारणाएँ

← सभी शब्द
← Sigmoid Sparse Attention →