L'équipe Qwen d'Alibaba a sorti Qwen3.6-35B-A3B le 16 avril, un jour après la sortie de Gemma 4, pis les deux sorties ensemble reconfigurent la conversation sur les poids ouverts. Qwen3.6, c'est un modèle mixture-of-experts creux avec 35 milliards de paramètres au total mais seulement 3 milliards actifs par passe avant, publié sous licence Apache 2.0 sur Hugging Face pis ModelScope. Le modèle est positionné pour le code agentique, le raisonnement sur des dépôts, l'usage d'outils, le travail à long contexte, pis les tâches multimodales avec des images ou de la vidéo. Le contexte natif est de 262 144 tokens avec une extension YaRN qui, selon les rapports, pousse à environ 1 million. Les premiers rapports tiers prétendent que le modèle bat Gemma 4-31B sur plusieurs benchmarks pis qu'il est compétitif avec des modèles denses plus gros pour du déploiement local.
L'architecture 35B-total, 3B-actif, c'est le choix intéressant. Avec 3 milliards de paramètres actifs par passe avant, Qwen3.6 a des exigences de calcul d'inférence comparables à un modèle dense 3B tout en portant les connaissances pis la capacité d'un modèle beaucoup plus gros. C'est la victoire théorique de MoE rendue concrète pour du déploiement local sur un seul GPU : tu as besoin à peu près d'assez de VRAM pour tenir les 35B au complet, fait que c'est le territoire de station de travail haut de gamme, pas de portable grand public, mais le calcul par token est équivalent à un dense 3B, ce qui est assez rapide pour être utile en pratique. La licence Apache 2.0 enlève la friction d'usage commercial que les licences Qwen antérieures imposaient pis met Qwen dans le même palier commercial-permissif que Gemma 4. Le support multimodal (images pis vidéo) correspond à la multimodalité native de Gemma 4. Le contexte natif de 262K pis l'extension YaRN de 1M sont compétitifs avec les modèles frontière fermés pour le travail sur documents longs.
Deux modèles open-weights multimodaux-agentiques sous Apache 2.0 venant de deux labos différents en quinze jours, c'est un patron, pas une coïncidence. Les labos ont convergé sur la forme exacte de produit que les acheteurs entreprise demandent depuis un moment : licence commerciale permissive, multimodal, prêt pour l'agentique, long contexte, benchmarks compétitifs contre les modèles fermés de milieu de gamme. Les acheteurs ont demandé assez fort, pis Alibaba pis Google ont répondu à quelques semaines d'écart. L'implication compétitive pour le business d'APIs fermées de milieu de gamme (la couche volume, pas la frontière), c'est que capacité plus licence permissive plus efficacité MoE plus une alternative d'origine non-chinoise chez Google, ça forme maintenant une vraie option d'approvisionnement. La frontière reste derrière des portes fermées (GPT-5.4, Claude Opus 4.7, Gemini Pro, pis le palier cadenassé Mythos pis GPT-Rosalind), mais la couche volume se fait manger par les poids ouverts plus vite que la plupart des fournisseurs établis l'avaient budgété il y a un an.
Pour les équipes avec une charge d'agent de code, de raisonnement de dépôt ou d'usage d'outils, Qwen3.6-35B-A3B vaut la peine d'être benchmarké contre ce que t'utilises actuellement pour la tranche de 3B à 8B de paramètres actifs. L'architecture MoE aide spécifiquement si t'as le budget VRAM pour tenir les poids au complet mais tu veux une latence d'inférence de dense-3B ; c'est un compromis utile pour la génération de code en lot pis le raisonnement à long contexte. Pour les équipes avec de la sensibilité géopolitique, la préoccupation sur l'origine Qwen est réelle pis demande une revue risque-et-conformité avant l'usage en production, peu importe la permissivité de la licence ; cette revue est séparée pis additionnelle aux affirmations de capacités du modèle. Pour tout le monde, le signal, c'est que le milieu de gamme open-weights est maintenant une vraie catégorie d'approvisionnement avec plusieurs options Apache 2.0 crédibles, pis que la pile correcte en 2026 route probablement l'intention par coût pis capacité à travers Gemma-ou-Qwen ouvert pour le volume pis des modèles frontière fermés pour le 10 pour cent de tâches difficiles qui en ont vraiment besoin.
