Gu और Dao द्वारा selective state space model। Transformer की quadratic scaling के बजाय sequence length में linear scaling। compressed hidden state जो चयनात्मक रूप से अपडेट होती है — महत्वपूर्ण जानकारी संरक्षित, अप्रासंगिक क्षय।
यह क्यों मायने रखता है
Transformer प्रभुत्व के लिए सबसे विश्वसनीय चुनौती। यदि Transformer-गुणवत्ता परिणामों के साथ linear-time, तो प्रभाव विशाल हैं। Hybrid architectures (Jamba, Zamba) पहले से शिप हो रहे हैं।
गहन अध्ययन
नवाचार: input-dependent B और C matrices (selectivity)। Hardware-aware kernel implementation। Mamba-2: structured attention के रूप में SSM। Hybrids SSM + attention layers को interleave करते हैं।