A equipe Qwen da Alibaba lançou o Qwen3.6-35B-A3B em 16 de abril, um dia após o lançamento do Gemma 4, e os dois lançamentos juntos reformulam a conversa sobre pesos abertos. O Qwen3.6 é um modelo mixture-of-experts esparso com 35 bilhões de parâmetros totais mas apenas 3 bilhões ativos por passagem para frente, publicado sob licença Apache 2.0 no Hugging Face e no ModelScope. O modelo é posicionado para codificação agêntica, raciocínio de repositório, uso de ferramentas, trabalho de contexto longo, e tarefas multimodais envolvendo imagens ou vídeo. O contexto nativo é de 262.144 tokens com a extensão YaRN supostamente empurrando para cerca de 1 milhão. Relatos de terceiros reivindicam que o modelo vence o Gemma 4-31B em vários benchmarks e é competitivo com modelos densos maiores para deploy local.

A arquitetura 35B-total, 3B-ativo é a escolha interessante. Com 3 bilhões de parâmetros ativos por passagem para frente, o Qwen3.6 tem requisitos de computação de inferência comparáveis a um modelo denso de 3B enquanto carrega o conhecimento e a capacidade de um muito maior. Essa é a vitória teórica do MoE concretizada para deploy local em um único GPU: você precisa de VRAM suficiente para segurar os 35B inteiros, portanto território de workstation de ponta, não notebook de consumidor, mas o cômputo por token é equivalente a denso-3B, o que é rápido o bastante para ser praticamente útil. A licença Apache 2.0 remove a fricção de uso comercial que as licenças Qwen anteriores impunham e coloca o Qwen exatamente no mesmo nível comercial-permissivo do Gemma 4. O suporte multimodal (imagens e vídeo) casa com a multimodalidade nativa do Gemma 4. O contexto nativo de 262K e a extensão YaRN de 1M são competitivos com modelos de fronteira fechados para trabalho em documentos longos.

Dois modelos open-weights multimodais-agênticos sob Apache 2.0 vindos de dois laboratórios diferentes em quinze dias é um padrão, não coincidência. Os laboratórios convergiram para a forma exata de produto que compradores empresariais vinham pedindo: licença comercialmente permissiva, multimodal, pronto para agêntico, contexto longo, benchmarks competitivos contra modelos fechados de média escala. Compradores pediram alto o suficiente, e tanto a Alibaba quanto o Google responderam com algumas semanas de diferença um do outro. A implicação competitiva para o negócio de APIs fechadas de média escala (a camada de volume, não a fronteira) é que capacidade mais licença permissiva mais eficiência MoE mais uma alternativa de origem não-chinesa no Google agora forma uma opção de procurement real. A fronteira ainda está atrás de portas fechadas (GPT-5.4, Claude Opus 4.7, Gemini Pro, e a camada trancada Mythos e GPT-Rosalind), mas a camada de volume está sendo devorada por pesos abertos mais rápido do que a maioria dos vendors estabelecidos orçou há um ano atrás.

Para times com uma carga de agente de código, raciocínio de repositório ou uso de ferramentas, o Qwen3.6-35B-A3B vale ser benchmarkado contra o que você usa hoje para a faixa de 3B a 8B de parâmetros ativos. A arquitetura MoE ajuda especificamente se você tem orçamento de VRAM para segurar os pesos inteiros mas quer latência de inferência de denso-3B; é um trade-off útil para geração de código em lote e raciocínio de contexto longo. Para times com sensibilidade geopolítica, a preocupação de origem Qwen é real e precisa de uma revisão de risco-e-compliance antes do uso em produção, independentemente da permissividade da licença; essa revisão é separada e adicional às alegações de capacidade do modelo. Para todos, o sinal é que a faixa média de pesos abertos agora é uma categoria de procurement genuína com múltiplas opções Apache 2.0 críveis, e o stack correto em 2026 provavelmente roteia intenção por custo e capacidade entre Gemma-ou-Qwen aberto para volume e modelos de fronteira fechados para os 10 por cento de tarefas difíceis que realmente precisam deles.