Zubnet AIसीखेंWiki › Mamba
मॉडल

Mamba

इसे यह भी कहते हैं: Selective SSM
Gu और Dao द्वारा selective state space model। Transformer की quadratic scaling के बजाय sequence length में linear scaling। compressed hidden state जो चयनात्मक रूप से अपडेट होती है — महत्वपूर्ण जानकारी संरक्षित, अप्रासंगिक क्षय।

यह क्यों मायने रखता है

Transformer प्रभुत्व के लिए सबसे विश्वसनीय चुनौती। यदि Transformer-गुणवत्ता परिणामों के साथ linear-time, तो प्रभाव विशाल हैं। Hybrid architectures (Jamba, Zamba) पहले से शिप हो रहे हैं।

गहन अध्ययन

नवाचार: input-dependent B और C matrices (selectivity)। Hardware-aware kernel implementation। Mamba-2: structured attention के रूप में SSM। Hybrids SSM + attention layers को interleave करते हैं।

संबंधित अवधारणाएँ

← सभी शब्द
← Machine Translation Masked Language Modeling →
ESC