NVIDIA Gated DeltaNet-2 desacopla erase e write — NIAH 63 a 90 em 2K

A NVIDIA soltou Gated DeltaNet-2 essa semana — uma camada de atenção linear que divide o escalar β único do DeltaNet em dois gates channel-wise, um pra erase (eixo key) e um pra write (eixo value). A equação de update é o ponto: `S_t = (I − k_t (b_t ⊙ k_t)ᵀ) D_t S_{t−1} + k_t (w_t ⊙ v_t)ᵀ`. O gate erase `b_t ∈ [0,1]^d_k` controla quais elementos do estado decodificado são lidos e removidos; o gate write `w_t ∈ [0,1]^d_v` controla qual conteúdo novo é comprometido; `D_t = Diag(α_t)` é o decay channel-wise herdado do KDA. Quando ambos gates colapsam a um escalar você recupera Gated DeltaNet; colapse também o decay e recupera DeltaNet original. Pra quem trackeia a linha linear-attention / SSM — Mamba-2, KDA, RWKV-v7, GDN-1 — é a delta arquitetural mais limpa na família desde o gated decay.

Números a 1.3B parâmetros, 100B tokens FineWeb-Edu, contexto 4K. Recorrente puro: language modeling + reasoning average **53.11** vs Mamba-3 MIMO **52.39** vs KDA **52.28**. S-NIAH-3 @2K contexto salta pra **89.8** desde 63.2 do KDA — ganho absoluto de 26 pontos no benchmark canônico needle-in-haystack, atribuível ao split channel-wise erase/write que permite ao estado reter info no eixo-key sem perda escalar acoplada no value. MK-NIAH-1 @4K: **37.8** vs 28.0 do KDA. Real-world retrieval average **29.88**. Híbrido (GDN-2 + sliding-window attention 2K em algumas camadas) empurra language+reasoning pra **53.97** e real-world retrieval pra **42.28**, confirmando o achado ainda padrão que misturar camadas lineares e softmax te compra o teto de retrieval mantendo o piso de throughput linear. Training chunkwise com chunk-size 64 com kernels Triton fundidos; WY backward restrito a 2-4 warps em Hopper pra desviar layout assertions.

Leitura ecossistema: a comunidade linear-attention convergiu em "gateie o decay" como o maior ganho desde DeltaNet puro — KDA introduziu α channel-wise, Mamba-2 tem seu framework SSD, RWKV-v7 tem seu time-mix. A contribuição do GDN-2 é reconhecer que *um escalar β fazendo erase e write dos dois* era o próximo acoplamento a quebrar. Uma vez desacoplado, o modelo pode segurar um padrão key estável através de muitos tokens (não apagá-lo do eixo key) enquanto atualiza o value associado (write through). É exatamente o failure mode que os benchmarks needle-in-haystack expõem, e o salto 63→90 no S-NIAH-3 é a confirmação empírica. O caveat training-length 4K é real — os claims long-context são baseados em RULER-retrieval, não geração contínua além do training length — e nenhum número de throughput vs baselines é publicado. Os builders deveriam reproduzir ambos antes de se comprometer.

Segunda de manhã: o código tá em github.com/NVlabs/GatedDeltaNet-2 (PyTorch + kernels Triton, pretrain.py completo, AdamW peak LR 4e-4, warmup 1B-tokens). A licença é NVIDIA Source Code License-NC — não-comercial, sem redistribuição, sem shipar um produto com isso. Se você faz pesquisa de arquitetura, fine-tuning do teu próprio SSM, ou ablações na fronteira linear-vs-softmax, clone e benchmarkeie. Se você shippa um modelo produção e esperava swap de camadas, a licença NC te bloqueia; a ideia arquitetural é reproduzível do paper e a equação de gating são dois sigmoids — esse é o path mais provável pra um fork comunitário.

NVIDIA Gated DeltaNet-2 desacopla erase e write — NIAH 63 a 90 em 2K

Mais notícias