阿里巴巴 Qwen 團隊今天在 Bailian(阿里雲為國際開發者提供的 Model Studio)上發布了 Qwen3.7-Plus,這是 5 月落地的純文字 Qwen3.7-Max 的多模態姊妹版。列出的能力:圖像和影片理解(讀取,不生成)、深度推理、工具呼叫、自我編程、驗證和測試,以及「自主迭代」(阿里巴巴對持續 agent 循環的框架)。1M token 上下文窗口。值得標記的具體智能體聲明:「35 小時自主執行,無可衡量的退化,在單一會話中鏈式呼叫超過 1,000 個工具。」發布時僅 API;Plus 承諾開放權重(Max 保持專有),目前沒有具體的時間表,發布時在 HuggingFace 上沒有存在。
參數數量未揭露。架構(dense vs MoE)未揭露。「深度推理」機制未詳細說明:沒有提及像之前 Qwen3-Max-Thinking 那樣的 thinking-mode 切換,沒有揭露成本乘數。工具呼叫 = 基礎級別的函式呼叫;未確認 MCP 支援。Vision Arena 排名整體第 16(阿里巴巴全球第 5 lab),穩健但不是前沿 SOTA。姊妹版 Qwen3.7-Max 在 Artificial Analysis Intelligence Index v4.0 上得分 56.6(整體第 5,中國模型第 1),Terminal-Bench Hard 上 50.8%,GPQA Diamond 上 92.4(超過 Claude Opus-4.6 的 91.3),在前沿模型中幻覺率最低,為 22.9%。這些是 Max 的數字,不是 Plus 的。Bailian 添加了一個「Agentic RL」層,使用真實世界的執行回饋來隨時間改進準確性,這是一個在基礎模型之上執行的平台級 continual-learning 特性。35 小時 1000 工具呼叫的展示是廠商發布的,沒有 harness 揭露,目前還沒有第三方複現。
值得追蹤的兩條線索。首先,開放權重分層劃分。阿里巴巴將 Plus 開放,Max 保持專有,鏡像 DeepSeek 建立的模式,以及 MiniMax M3 剛剛加倍的(承諾 10 天內開放權重)。中國實驗室開放權重與西方實驗室專有前沿的動態繼續加劇,每次發布都將「完全開放前沿」的邊界推得更遠一點。其次,智能體框架。「自主迭代」是阿里巴巴對功能上是 ReAct 風格多輪工具使用循環的重新品牌化,但持續時間聲明(35 小時,1000+ 工具呼叫)是操作前沿數字。如果可複現,它會改變哪些類型的長時間執行 agent 在經濟上可行。獨立驗證是缺口:沒有 harness 揭露,發布材料中沒有第三方複現。Bailian Agentic RL 平台特性(部署期間透過執行回饋進行 fine-tuning)是超越模型能力的平台級實質性聲明,從真實生產軌跡進行 continual learning,這是大多數 agent 平台談論而幾乎沒有人真正交付的東西。
週一早上,如果你在部署長時間執行的 agent 並且可以存取 Bailian:Qwen3.7-Plus 值得今天整合,專門測試長工具執行的持久性聲明。執行你自己的多小時任務,帶有具體的工具計數,衡量退化實際開始的位置與廠商 35 小時數字相比。如果你不在 Bailian 上並且不想要 cloud-API agent 依賴,開放權重的發布是要等待的事件;在此之前,這是一個廠商平台的故事。如果你正在為你的 stack 評估中國實驗室的開放權重,關注 Plus 的開放發布以及 MiniMax M3 承諾的 10 天權重發布,兩者可能會在同一視窗落地,比較將對哪一個屬於你的推理艦隊產生影響。如果你自己正在建構一個 continual-learning 平台,Bailian Agentic RL 聲明是要學習的設計模式,廠商描述很薄但框架(真實世界執行回饋作為 RL 訊號)是正確的形狀。
