NVIDIA ने इस हफ़्ते Gated DeltaNet-2 drop किया — एक linear-attention layer जो DeltaNet के single scalar β को दो channel-wise gates में split करती है, एक erase के लिए (key axis) और एक write के लिए (value axis)। Update equation ही पूरा point है: `S_t = (I − k_t (b_t ⊙ k_t)ᵀ) D_t S_{t−1} + k_t (w_t ⊙ v_t)ᵀ`। Erase gate `b_t ∈ [0,1]^d_k` control करता है कौनसे decoded state elements पढ़े और हटाए जाते हैं; write gate `w_t ∈ [0,1]^d_v` control करता है कौनसा नया content commit होता है; `D_t = Diag(α_t)` KDA से inherited channel-wise decay है। जब दोनों gates scalar पर collapse होते हैं तो तुम Gated DeltaNet recover कर लेते हो; decay भी collapse करो और original DeltaNet recover हो जाता है। जो लोग linear-attention / SSM line track कर रहे हैं — Mamba-2, KDA, RWKV-v7, GDN-1 — gated decay के बाद family की सबसे साफ़ architectural delta यही है।
Numbers 1.3B parameters, 100B FineWeb-Edu tokens, 4K context पर। Pure recurrent: language modeling + reasoning average **53.11** vs Mamba-3 MIMO **52.39** vs KDA **52.28**। S-NIAH-3 @2K context KDA के 63.2 से **89.8** पर छलाँग — canonical needle-in-haystack benchmark पर 26-point absolute gain, channel-wise erase/write split के कारण जो state को key-axis information retain करने देता है scalar-coupled value loss के बिना। MK-NIAH-1 @4K: **37.8** vs KDA का 28.0। Real-world retrieval average **29.88**। Hybrid (GDN-2 + कुछ layers में 2K sliding-window attention) language+reasoning को **53.97** और real-world retrieval को **42.28** तक धकेलता है, यह confirm करते हुए कि linear और softmax layers mix करना retrieval ceiling खरीदता है और linear throughput floor maintain करता है। Chunkwise training chunk-size 64 पर fused Triton kernels के साथ; WY backward Hopper पर 2-4 warps तक restricted layout assertions से बचने के लिए।
Ecosystem read: linear-attention community pure DeltaNet के बाद "gate the decay" सबसे बड़ा win पर converge हुई — KDA ने channel-wise α introduce किया, Mamba-2 का अपना SSD framework है, RWKV-v7 का अपना time-mix है। GDN-2 का contribution यह recognise करना है कि *एक scalar β erase और write दोनों करना* अगला coupling था जिसे तोड़ना था। Decouple करने पर model एक key-pattern को कई tokens में stable रख सकता है (इसे key axis से erase नहीं करना) जबकि associated value update करता है (write through)। यह exactly वो failure mode है जो needle-in-haystack benchmarks expose करते हैं, और S-NIAH-3 पर 63→90 की छलाँग empirical confirmation है। 4K training-length caveat real है — long-context claims RULER-retrieval based हैं, training length से आगे continuous generation नहीं — और baselines के against कोई throughput numbers publish नहीं किए गए। Builders को commit करने से पहले दोनों reproduce करने चाहिए।
Monday सुबह: code github.com/NVlabs/GatedDeltaNet-2 पर है (PyTorch + Triton kernels, full pretrain.py, AdamW peak LR 4e-4, 1B-token warmup)। License NVIDIA Source Code License-NC है — non-commercial, no redistribution, इससे product ship नहीं कर सकते। अगर तुम architecture research, अपना SSM fine-tune, या linear-vs-softmax frontier पर ablations कर रहे हो, clone और benchmark करो। अगर तुम production model ship कर रहे थे और layers swap करने की उम्मीद थी, NC license तुम्हें block करती है; architectural idea paper से reproducible है और gating equation दो sigmoids हैं — यह community fork का सबसे probable path है।
