L'équipe Qwen d'Alibaba a lancé Qwen3.7-Plus sur Bailian (le Model Studio d'Alibaba Cloud pour les développeurs internationaux) aujourd'hui, le sibling multimodal du Qwen3.7-Max text-only qui avait atterri en mai. Capacités listées : compréhension d'images et vidéo (lit, ne génère pas), raisonnement profond, invocation d'outils, self-programming, vérification et testing, et "itération autonome" (framing d'Alibaba pour les boucles d'agent soutenues). Fenêtre de contexte 1M tokens. Le claim agentique concret qui vaut la peine d'être flagué : "run autonome de 35 heures sans dégradation mesurable, chaînant plus de 1 000 appels d'outils en une seule session." API seulement au lancement ; Plus est committé aux poids ouverts (Max reste propriétaire), pas de timeline spécifique encore, pas de présence HuggingFace à la publication.

Nombre de paramètres pas divulgué. Architecture (dense vs MoE) pas divulguée. Le mécanisme de "raisonnement profond" n'est pas détaillé : pas de mention d'un toggle thinking-mode comme la ligne Qwen3-Max-Thinking précédente, pas de multiplier de coût divulgué. Invocation d'outils = function calling au niveau de base ; support MCP pas confirmé. Le ranking Vision Arena est #16 overall (Alibaba #5 lab globalement), solide mais pas frontier-SOTA. Le sibling Qwen3.7-Max a scoré 56,6 sur Artificial Analysis Intelligence Index v4.0 (5ème overall, #1 modèle chinois), 50,8% sur Terminal-Bench Hard, 92,4 sur GPQA Diamond (devançant Claude Opus-4.6 à 91,3), avec le taux d'hallucination le plus bas parmi les modèles frontier à 22,9%. Ce sont des chiffres Max, pas Plus. Bailian ajoute une couche "Agentic RL" qui utilise le feedback d'exécution réel pour raffiner la précision dans le temps, une feature continual-learning au niveau plateforme qui opère au-dessus du modèle de base. Le demo de 35-heures-1000-tool-calls est vendor-published sans disclosure de harness et sans reproduction tierce yet.

Deux fils à tracker. Premièrement, le split tier open-weights. Alibaba rend Plus open et garde Max propriétaire, mirroring le pattern que DeepSeek a établi et que MiniMax M3 vient de doubler (poids ouverts promis dans 10 jours). La dynamique Chinese-lab open-weights versus Western-lab proprietary-frontier continue de s'affûter, chaque release poussant la ligne "fully open frontier" un peu plus loin. Deuxièmement, le framing agentique. "Itération autonome" est le rebrand d'Alibaba pour ce qui est fonctionnellement une boucle ReAct multi-turn tool-use, mais le claim de durée (35 heures, 1000+ tool calls) est le chiffre frontier opérationnel. Si reproductible, ça change quels types d'agents long-running sont économiquement viables. La vérification indépendante est le gap : pas de disclosure de harness, pas de reproduction tierce dans le matériel publié. La feature Bailian Agentic RL (fine-tuning par feedback d'exécution pendant le déploiement) est le claim substantiel au niveau plateforme qui va au-delà des capacités du modèle, continual learning depuis les traces de production réelles, ce que la plupart des plateformes d'agents disent et que presque aucune ne ship réellement.

Lundi matin, si tu déploies des agents long-running et as accès à Bailian : Qwen3.7-Plus vaut l'intégration aujourd'hui spécifiquement pour tester le claim de durabilité de long-tool-run. Roule ta propre tâche multi-heures avec des compteurs d'outils concrets et mesure où la dégradation s'installe vraiment versus le chiffre vendor de 35 heures. Si t'es pas sur Bailian et veux pas d'une dépendance d'agent en cloud-API, le drop des poids ouverts est l'événement à attendre ; jusque-là, c'est une histoire de plateforme vendor. Si t'évalues les poids ouverts de labs chinois pour ton stack, watch la release ouverte de Plus aux côtés du drop promis de 10 jours pour MiniMax M3, les deux atterriront probablement dans la même fenêtre et la comparaison matter pour lequel appartient dans ta flotte d'inférence. Et si tu construis une plateforme de continual-learning toi-même, le claim Bailian Agentic RL est le design pattern à étudier, la description vendor est mince mais le framing (feedback d'exécution réel comme signal RL) est la bonne shape.