NVIDIA Gated DeltaNet-2 découple erase et write — NIAH 63 à 90 à 2K

NVIDIA a sorti Gated DeltaNet-2 cette semaine — une couche d'attention linéaire qui split le scalaire β unique de DeltaNet en deux gates channel-wise, un pour erase (axe clé) et un pour write (axe valeur). L'équation d'update est le point central : `S_t = (I − k_t (b_t ⊙ k_t)ᵀ) D_t S_{t−1} + k_t (w_t ⊙ v_t)ᵀ`. Le gate erase `b_t ∈ [0,1]^d_k` contrôle quels éléments d'état décodés sont lus et enlevés ; le gate write `w_t ∈ [0,1]^d_v` contrôle quel nouveau contenu est commit ; `D_t = Diag(α_t)` est le decay channel-wise hérité de KDA. Quand les deux gates collapsent à un scalaire tu retrouves Gated DeltaNet ; collapse aussi le decay et tu retrouves le DeltaNet original. Pour qui track la ligne linear-attention / SSM — Mamba-2, KDA, RWKV-v7, GDN-1 — c'est la delta architecturale la plus propre dans la famille depuis le gated decay.

Chiffres à 1,3B paramètres, 100B tokens FineWeb-Edu, contexte 4K. Récurrent pur : language modeling + reasoning average **53,11** vs Mamba-3 MIMO **52,39** vs KDA **52,28**. S-NIAH-3 @2K contexte saute à **89,8** depuis 63,2 de KDA — un gain absolu de 26 points sur le benchmark canonique needle-in-haystack, attribuable au split channel-wise erase/write qui laisse l'état retenir l'info axe-clé sans perte scalaire couplée sur la valeur. MK-NIAH-1 @4K : **37,8** vs 28,0 de KDA. Real-world retrieval average **29,88**. Hybride (GDN-2 + sliding-window attention 2K aux quelques couches) pousse language+reasoning à **53,97** et real-world retrieval à **42,28**, confirmant le finding encore standard que mixer couches linéaires et softmax t'achète le plafond retrieval en gardant le plancher throughput linéaire. Training chunkwise à chunk-size 64 avec kernels Triton fusés ; WY backward restreint à 2-4 warps sur Hopper pour dodger les layout assertions.

Lecture écosystème : la communauté linear-attention a convergé sur "gate le decay" comme le plus gros win depuis pure DeltaNet — KDA a introduit α channel-wise, Mamba-2 a son framework SSD, RWKV-v7 a son time-mix. La contribution de GDN-2 c'est de reconnaître qu'*un scalaire β faisant erase et write des deux* était le prochain couplage à casser. Une fois découplé, le modèle peut tenir un pattern clé stable à travers many tokens (ne pas l'erase de l'axe clé) tout en mettant à jour la valeur associée (write through). C'est exactement le failure mode que les benchmarks needle-in-haystack exposent, et le saut 63→90 sur S-NIAH-3 est la confirmation empirique. Le caveat training-length 4K est réel — les claims long-contexte sont basés sur RULER-retrieval, pas génération continue au-delà du training length — et aucun chiffre de throughput vs baselines n'est publié. Les builders devraient reproduire les deux avant de s'engager.

Lundi matin : le code est dispo à github.com/NVlabs/GatedDeltaNet-2 (PyTorch + kernels Triton, pretrain.py complet, AdamW peak LR 4e-4, warmup 1B-tokens). La licence est NVIDIA Source Code License-NC — non-commerciale, pas de redistribution, pas de shipping d'un produit avec ça. Si tu fais de la recherche architecture, du fine-tuning de ton propre SSM, ou des ablations sur la frontière linéaire-vs-softmax, clone et benchmark. Si tu shippes un modèle production et espérais swapper des couches, la licence NC te bloque ; l'idée architecturale est reproductible depuis le paper et l'équation de gating c'est deux sigmoids — c'est le path le plus probable pour un fork communautaire.

NVIDIA Gated DeltaNet-2 découple erase et write — NIAH 63 à 90 à 2K

Plus de nouvelles