阿里的 Qwen 团队在 4 月 16 日放出了 Qwen3.6-35B-A3B,距离 Gemma 4 发布只差一天,这两款发布合起来重新塑造了开放权重的话题。Qwen3.6 是一款稀疏 mixture-of-experts 模型,总参数量 350 亿,但每次前向传播只激活 30 亿,在 Apache 2.0 许可下同步上了 Hugging Face 和 ModelScope。模型的定位是 agentic 编码、代码仓推理、工具使用、长上下文工作、以及涉及图像或视频的多模态任务。原生上下文是 262,144 tokens,通过 YaRN 扩展据报道可以推到约 100 万。早期第三方测评称该模型在不少 benchmark 上跑赢 Gemma 4-31B,对本地部署来说,在更大的稠密模型面前也有竞争力。

「总参 35B、激活 3B」这个架构选择才是真正值得看的一手。每次前向只激活 30 亿参数,意味着 Qwen3.6 的推理算力需求与一个稠密 3B 相当,但它承载的是一个大得多的模型的知识和能力。这就是 MoE 那个"理论上很美"的胜利,具体落到单 GPU 本地部署场景下的样子:你需要大约足够装下整个 35B 权重的显存,也就是高端工作站的地盘,不是消费级笔记本;但每 token 的计算开销就是一个稠密 3B 的量级,实打实地足够快用。Apache 2.0 许可则拿掉了此前几版 Qwen 许可在商用上留下的摩擦,把 Qwen 摆进了和 Gemma 4 一样的"商业友好"层。多模态支持(图像与视频)和 Gemma 4 的原生多模态对等。原生 262K 加 YaRN 扩展的 1M 上下文,在长文档场景里足以和闭源前沿模型掰掰手腕。

两款 Apache 2.0 的多模态-agentic 开放权重模型,从两家不同实验室,压在 15 天之内:这是模式,不是巧合。这两家实验室已经对齐到企业买家这阵子一直在点名要的那一套形态:商用宽松许可、多模态、适合 agentic、长上下文、在中档闭源模型面前跑得出成绩的 benchmark。买家要得够大声,阿里和 Google 前后几周之内就各自回了话。对中档闭源 API 业务(是量的那一层,不是前沿那一层)来说,这件事的竞争含义是:能力 + 宽松许可 + MoE 效率 + 一个来自非中国出身的 Google 替代,今天已经凑成了一个真实的采购选项。前沿依旧关在闭门之后(GPT-5.4、Claude Opus 4.7、Gemini Pro,以及门禁的 Mythos 与 GPT-Rosalind 那一层),但量的那一层被开放权重吃掉的速度,比大多数在位厂商一年前给自己算的账要快。

对做代码 agent、代码仓推理、工具使用类工作负载的团队:Qwen3.6-35B-A3B 值得拉出来,跟你现在在 3B 到 8B "激活参数" 这一带所用的模型做 benchmark。MoE 这套架构的特殊之处在于:如果你的显存预算够装下整套权重,但你又想要"稠密 3B"那种推理延迟,那这是一个很划算的权衡,特别适合批量代码生成和长上下文推理。对有地缘政治敏感性的团队:Qwen 的来源问题是真实的,不管许可有多宽松,都需要在上生产之前走一遍风控与合规评审;这套评审跟模型的能力宣称是分开、并且是在它之上的。对所有人:信号是开放权重的中档已经成了一个真正的采购类别,有多个可信的 Apache 2.0 选项;2026 年比较对的技术栈,大概会按成本与能力来分流:常规流量走开源的 Gemma 或 Qwen,那难啃的 10% 任务才真正需要闭源前沿模型。