阿里的 Qwen 團隊在 4 月 16 日放出了 Qwen3.6-35B-A3B,距離 Gemma 4 發布只差一天,這兩款發布合起來重新塑造了開放權重的話題。Qwen3.6 是一款稀疏 mixture-of-experts 模型,總參數量 350 億,但每次前向傳播只激活 30 億,在 Apache 2.0 授權下同步上了 Hugging Face 和 ModelScope。模型的定位是 agentic 編碼、程式碼庫推理、工具使用、長上下文工作、以及涉及影像或影片的多模態任務。原生上下文是 262,144 tokens,透過 YaRN 擴展據報告可以推到約 100 萬。早期第三方評測稱該模型在不少 benchmark 上跑贏 Gemma 4-31B,對本地部署來說,在更大的稠密模型面前也有競爭力。
「總參 35B、激活 3B」這個架構選擇才是真正值得看的一手。每次前向只激活 30 億參數,意味著 Qwen3.6 的推理算力需求與一個稠密 3B 相當,但它承載的是一個大得多的模型的知識與能力。這就是 MoE 那個「理論上很美」的勝利,具體落到單 GPU 本地部署情境下的樣子:你需要大約足夠裝下整個 35B 權重的顯存,也就是高階工作站的地盤,不是消費級筆電;但每 token 的計算開銷就是一個稠密 3B 的量級,實打實地足夠快用。Apache 2.0 授權則拿掉了此前幾版 Qwen 授權在商用上留下的摩擦,把 Qwen 擺進了和 Gemma 4 一樣的「商業友好」層。多模態支援(影像與影片)和 Gemma 4 的原生多模態對等。原生 262K 加 YaRN 擴展的 1M 上下文,在長文件情境裡足以和閉源前沿模型掰掰手腕。
兩款 Apache 2.0 的多模態-agentic 開放權重模型,來自兩家不同實驗室,壓在 15 天之內,這是模式,不是巧合。這兩家實驗室已經對齊到企業買家這陣子一直在點名要的那一套形態:商用寬鬆授權、多模態、適合 agentic、長上下文、在中檔閉源模型面前跑得出成績的 benchmark。買家要得夠大聲,阿里和 Google 前後幾週之內就各自回了話。對中檔閉源 API 業務(是量的那一層,不是前沿那一層)來說,這件事的競爭含義是:能力 + 寬鬆授權 + MoE 效率 + 一個來自非中國出身的 Google 替代,今天已經湊成了一個真實的採購選項。前沿依舊關在閉門之後(GPT-5.4、Claude Opus 4.7、Gemini Pro,以及門禁的 Mythos 與 GPT-Rosalind 那一層),但量的那一層被開放權重吃掉的速度,比大多數在位廠商一年前給自己算的帳要快。
對做程式碼 agent、程式碼庫推理、工具使用類工作負載的團隊:Qwen3.6-35B-A3B 值得拉出來,跟你現在在 3B 到 8B「激活參數」這一帶所用的模型做 benchmark。MoE 這套架構的特別之處在於:如果你的顯存預算夠裝下整套權重,但你又想要「稠密 3B」那種推理延遲,那這是一個很划算的權衡,尤其適合批量程式碼生成和長上下文推理。對有地緣政治敏感性的團隊:Qwen 的來源問題是真實的,不管授權有多寬鬆,都需要在上生產之前走一遍風控與合規評審;這套評審跟模型的能力宣稱是分開的,並且是在它之上的。對所有人:訊號是開放權重的中檔已經成了一個真正的採購類別,有多個可信的 Apache 2.0 選項;2026 年比較對的技術棧,大概會按成本與能力來分流:常規流量走開源的 Gemma 或 Qwen,那難啃的 10% 任務才真正需要閉源前沿模型。
