A equipe Qwen da Alibaba lançou Qwen3.7-Plus no Bailian (o Model Studio da Alibaba Cloud para desenvolvedores internacionais) hoje, o sibling multimodal do Qwen3.7-Max text-only que aterrissou em maio. Capacidades listadas: compreensão de imagens e vídeo (lê, não gera), raciocínio profundo, invocação de ferramentas, self-programming, verificação e testing, e "iteração autônoma" (o framing da Alibaba para loops de agente sustentados). Janela de contexto 1M tokens. O claim agêntico concreto que vale a pena flagar: "run autônomo de 35 horas sem degradação mensurável, encadeando mais de 1.000 chamadas de ferramentas em uma única sessão." Apenas API no lançamento; Plus está comprometido com pesos abertos (Max segue proprietário), sem timeline específico ainda, sem presença HuggingFace na publicação.

Contagem de parâmetros não divulgada. Arquitetura (densa vs MoE) não divulgada. O mecanismo de "raciocínio profundo" não está detalhado: sem menção a um toggle thinking-mode como a linha Qwen3-Max-Thinking anterior, sem multiplicador de custo divulgado. Invocação de ferramentas = function calling em nível básico; suporte MCP não confirmado. O ranking Vision Arena é #16 overall (Alibaba #5 lab globalmente), sólido mas não frontier-SOTA. O sibling Qwen3.7-Max scoreou 56,6 em Artificial Analysis Intelligence Index v4.0 (5o overall, #1 modelo chinês), 50,8% em Terminal-Bench Hard, 92,4 em GPQA Diamond (superando Claude Opus-4.6 a 91,3), com a taxa de alucinação mais baixa entre modelos frontier a 22,9%. Esses são números Max, não Plus. Bailian adiciona uma camada "Agentic RL" que usa feedback de execução real para refinar a precisão no tempo, uma feature continual-learning em nível plataforma que opera sobre o modelo base. O demo de 35-horas-1000-tool-calls é vendor-published sem disclosure de harness e sem reprodução de terceira parte ainda.

Dois fios a trackear. Primeiro, o split tier open-weights. A Alibaba está fazendo Plus aberto e mantendo Max proprietário, espelhando o padrão que DeepSeek estabeleceu e que MiniMax M3 acaba de dobrar (pesos abertos prometidos em 10 dias). A dinâmica Chinese-lab open-weights versus Western-lab proprietary-frontier continua se afiando, com cada release empurrando a linha "fully open frontier" um pouco mais longe. Segundo, o framing agêntico. "Iteração autônoma" é o rebrand da Alibaba para o que é funcionalmente um loop ReAct multi-turn tool-use, mas o claim de duração (35 horas, 1000+ tool calls) é o número frontier operacional. Se reproduzível, muda quais tipos de agentes long-running são economicamente viáveis. A verificação independente é a lacuna: sem disclosure de harness, sem reprodução de terceira parte em material publicado. A feature Bailian Agentic RL (fine-tuning por feedback de execução durante deployment) é o claim substantivo em nível plataforma que vai além das capacidades do modelo, continual learning a partir de traços de produção reais, o que a maioria das plataformas de agentes diz e quase nenhuma realmente entrega.

Segunda-feira pela manhã, se você está deployando agentes long-running e tem acesso ao Bailian: Qwen3.7-Plus vale a integração hoje especificamente para testar o claim de durabilidade de long-tool-run. Rode sua própria tarefa multi-hora com contagens de ferramentas concretas e meça onde a degradação realmente se instala versus o número vendor de 35 horas. Se você não está no Bailian e não quer uma dependência de agente em cloud-API, o drop de pesos abertos é o evento a esperar; até então, esta é uma história de plataforma vendor. Se você avalia pesos abertos de labs chineses para seu stack, observe a release aberta de Plus ao lado do drop prometido de 10 dias para MiniMax M3, ambos provavelmente aterrissarão na mesma janela e a comparação importará para qual pertence em sua frota de inferência. E se você constrói uma plataforma de continual-learning você mesmo, o claim Bailian Agentic RL é o design pattern a estudar, a descrição vendor é fina mas o framing (feedback de execução real como sinal RL) é a forma correta.