NVIDIA Gated DeltaNet-2 desacopla erase y write — NIAH 63 a 90 a 2K

NVIDIA soltó Gated DeltaNet-2 esta semana — una capa de atención lineal que divide el escalar β único de DeltaNet en dos gates channel-wise, uno para erase (eje key) y uno para write (eje value). La ecuación de update es el punto: `S_t = (I − k_t (b_t ⊙ k_t)ᵀ) D_t S_{t−1} + k_t (w_t ⊙ v_t)ᵀ`. El gate erase `b_t ∈ [0,1]^d_k` controla qué elementos del estado decodificado son leídos y removidos; el gate write `w_t ∈ [0,1]^d_v` controla qué contenido nuevo es comprometido; `D_t = Diag(α_t)` es el decay channel-wise heredado de KDA. Cuando ambos gates colapsan a un escalar recuperas Gated DeltaNet; colapsa también el decay y recuperas DeltaNet original. Para quien trackea la línea linear-attention / SSM — Mamba-2, KDA, RWKV-v7, GDN-1 — es la delta arquitectónica más limpia en la familia desde el gated decay.

Números a 1.3B parámetros, 100B tokens FineWeb-Edu, contexto 4K. Recurrente puro: language modeling + reasoning average **53.11** vs Mamba-3 MIMO **52.39** vs KDA **52.28**. S-NIAH-3 @2K contexto salta a **89.8** desde 63.2 de KDA — ganancia absoluta de 26 puntos en el benchmark canónico needle-in-haystack, atribuible al split channel-wise erase/write que permite al estado retener info en eje-key sin pérdida escalar acoplada en value. MK-NIAH-1 @4K: **37.8** vs 28.0 de KDA. Real-world retrieval average **29.88**. Híbrido (GDN-2 + sliding-window attention 2K en algunas capas) empuja language+reasoning a **53.97** y real-world retrieval a **42.28**, confirmando el hallazgo aún estándar que mezclar capas lineales y softmax te compra el techo de retrieval manteniendo el piso de throughput lineal. Training chunkwise con chunk-size 64 con kernels Triton fusionados; WY backward restringido a 2-4 warps en Hopper para esquivar layout assertions.

Lectura ecosistema: la comunidad linear-attention convergió en "gatea el decay" como la mayor ganancia desde DeltaNet puro — KDA introdujo α channel-wise, Mamba-2 tiene su framework SSD, RWKV-v7 tiene su time-mix. La contribución de GDN-2 es reconocer que *un escalar β haciendo erase y write de ambos* era el siguiente acoplamiento a romper. Una vez desacoplado, el modelo puede sostener un patrón key estable a través de muchos tokens (no borrarlo del eje key) mientras actualiza el value asociado (write through). Es exactamente el failure mode que exponen los benchmarks needle-in-haystack, y el salto 63→90 en S-NIAH-3 es la confirmación empírica. El caveat training-length 4K es real — los claims long-context son basados en RULER-retrieval, no generación continua más allá del training length — y no se publican números de throughput vs baselines. Los builders deberían reproducir ambos antes de comprometerse.

Lunes por la mañana: el código está en github.com/NVlabs/GatedDeltaNet-2 (PyTorch + kernels Triton, pretrain.py completo, AdamW peak LR 4e-4, warmup 1B-tokens). La licencia es NVIDIA Source Code License-NC — no comercial, sin redistribución, sin shippear un producto con esto. Si haces investigación de arquitectura, fine-tuning de tu propio SSM, o ablaciones en la frontera lineal-vs-softmax, clona y benchmarkea. Si shippas un modelo producción y esperabas swap de capas, la licencia NC te bloquea; la idea arquitectónica es reproducible desde el paper y la ecuación de gating son dos sigmoids — ese es el path más probable para un fork comunitario.

NVIDIA Gated DeltaNet-2 desacopla erase y write — NIAH 63 a 90 a 2K

Más noticias