A equipe Qwen liberou o FlashQLA na terça-feira sob MIT, uma biblioteca de kernels de alta performance focada no mecanismo de atenção linear Gated Delta Network (GDN) que alimenta as famílias de modelos Qwen3.5 e Qwen3.6. O benchmark principal: speedup de 2-3x no forward pass e 2x no backward pass contra a implementação Triton estabelecida do Flash Linear Attention (FLA), medido em Nvidia H200 em dimensões de head correspondendo às configurações tensor-parallel do Qwen (TP1 a TP8, hv de 64 até 8). Repositório em github.com/QwenLM/FlashQLA. A substância está em sobre o que o FlashQLA escolheu construir: não Triton, mas TileLang — um framework compilador relativamente novo que expõe primitivas de scheduling específicas do Hopper que o Triton não consegue expressar plenamente.

O contexto arquitetural importa. Atenção linear substitui a complexidade O(n²) da atenção softmax padrão por O(n), o que se torna estrutural quando comprimentos de sequência cruzam 100k tokens. GDN é uma variante "gated" que aplica uma porta exponencialmente decrescente sobre o contexto passado — uma formulação que admite implementação eficiente em nível kernel mas exige scheduling cuidadoso de movimento de memória, operações Tensor Core e compute CUDA Core para realmente entregar a eficiência teórica. Qwen3.5/3.6 usam um design híbrido: camadas GDN alternam com atenção completa padrão, obtendo a expressividade de atenção completa onde necessário e a eficiência de atenção linear em todo o resto. FlashQLA otimiza especificamente a metade de atenção linear daquela stack — o que significa que o ganho compõe com arquiteturas híbridas, não só modelos de atenção linear pura.

A dimensão Triton-vs-TileLang é o sinal mais amplo. Triton (a linguagem de programação GPU baseada em Python da OpenAI) democratizou a escrita de kernels — a maioria dos kernels ML de produção incluindo a implementação de referência do FlashAttention dependem dele. Mas a abstração do Triton mira um modelo de programação CUDA genérico, que não expõe plenamente as características específicas do Hopper: operações Tensor Core em nível warpgroup, pipelines de dados assíncronos, e especialização de warp que deixa você dividir um kernel através de warpgroups de 128 threads atribuídos a papéis especializados (um move dados, um roda Tensor Cores, um roda CUDA cores, todos sobrepondo). FlashQLA usa primitivas de kernels warp-especializados do TileLang para orquestrar manualmente essa sobreposição. O resultado é um kernel mais frágil (específico do Hopper, exige SM90+ com CUDA 12.8+ e PyTorch 2.8+) mas materialmente mais rápido do que o Triton consegue produzir. Estamos de volta a um regime onde performance kernel séria demanda implementações hand-tuned específicas de hardware — Triton foi uma abstração linda mas custou throughput no silício mais recente.

Para builders, três leituras. Primeiro, se você roda inferência Qwen3.5/3.6 em escala no H100/H200, trocar FLA por FlashQLA é potencialmente 2x de throughput de decode grátis — mas verifique no seu deployment específico porque os benchmarks foram latência single-kernel, não serving end-to-end. Segundo, a divisão Triton-vs-TileLang sinaliza um imposto de portabilidade que vai continuar alargando: kernels portáveis rodam em todo lugar mas mais lentos, kernels específicos de hardware exigem manter caminhos de código separados por geração (SM89 Ada, SM90 Hopper, SM100 Blackwell). Frameworks como TileLang e CUTLASS vão cada vez mais possuir o teto de alta performance enquanto Triton mantém o piso amigável para desenvolvedores. Terceiro, isso é um sinal sobre o time de infra do Qwen — enviar uma biblioteca de kernels hand-tuned junto com os pesos do modelo é o tipo de otimização verticalmente integrada que times open-source ocidentais têm sido mais lentos em fazer. DeepSeek-V3 veio com implementações CUDA custom; Qwen3.x agora vem com biblioteca de kernels custom. A barra para "pesos abertos" está silenciosamente virando "pesos abertos mais os kernels que você precisa para realmente servi-los eficientemente". Esse é um upgrade significativo do que parece a entrega de IA open-source.