阿里巴巴 Qwen 团队今天在 Bailian(阿里云为国际开发者提供的 Model Studio)上发布了 Qwen3.7-Plus,这是 5 月落地的纯文本 Qwen3.7-Max 的多模态姊妹版。列出的能力:图像和视频理解(读取,不生成)、深度推理、工具调用、自我编程、验证和测试,以及"自主迭代"(阿里巴巴对持续 agent 循环的框架)。1M token 上下文窗口。值得标记的具体智能体声明:"35 小时自主运行,无可衡量的退化,在单一会话中链式调用超过 1,000 个工具。"发布时仅 API;Plus 承诺开放权重(Max 保持专有),目前没有具体的时间表,发布时在 HuggingFace 上没有存在。

参数数量未披露。架构(dense vs MoE)未披露。"深度推理"机制未详细说明:没有提及像之前 Qwen3-Max-Thinking 那样的 thinking-mode 切换,没有披露成本乘数。工具调用 = 基础级别的函数调用;未确认 MCP 支持。Vision Arena 排名整体第 16(阿里巴巴全球第 5 lab),稳健但不是前沿 SOTA。姊妹版 Qwen3.7-Max 在 Artificial Analysis Intelligence Index v4.0 上得分 56.6(整体第 5,中国模型第 1),Terminal-Bench Hard 上 50.8%,GPQA Diamond 上 92.4(超过 Claude Opus-4.6 的 91.3),在前沿模型中幻觉率最低,为 22.9%。这些是 Max 的数字,不是 Plus 的。Bailian 添加了一个"Agentic RL"层,使用真实世界的执行反馈来随时间改进准确性,这是一个在基础模型之上运行的平台级 continual-learning 特性。35 小时 1000 工具调用的演示是供应商发布的,没有 harness 披露,目前还没有第三方复现。

值得跟踪的两条线索。首先,开放权重分层划分。阿里巴巴将 Plus 开放,Max 保持专有,镜像 DeepSeek 建立的模式,以及 MiniMax M3 刚刚加倍的(承诺 10 天内开放权重)。中国实验室开放权重与西方实验室专有前沿的动态继续加剧,每次发布都将"完全开放前沿"的边界推得更远一点。其次,智能体框架。"自主迭代"是阿里巴巴对功能上是 ReAct 风格多轮工具使用循环的重新品牌化,但持续时间声明(35 小时,1000+ 工具调用)是操作前沿数字。如果可复现,它会改变哪些类型的长时间运行 agent 在经济上可行。独立验证是缺口:没有 harness 披露,发布材料中没有第三方复现。Bailian Agentic RL 平台特性(部署期间通过执行反馈进行 fine-tuning)是超越模型能力的平台级实质性声明,从真实生产轨迹进行 continual learning,这是大多数 agent 平台谈论而几乎没有人真正交付的东西。

周一早上,如果你在部署长时间运行的 agent 并且可以访问 Bailian:Qwen3.7-Plus 值得今天集成,专门测试长工具运行的持久性声明。运行你自己的多小时任务,带有具体的工具计数,衡量退化实际开始的位置与供应商 35 小时数字相比。如果你不在 Bailian 上并且不想要 cloud-API agent 依赖,开放权重的发布是要等待的事件;在此之前,这是一个供应商平台的故事。如果你正在为你的 stack 评估中国实验室的开放权重,关注 Plus 的开放发布以及 MiniMax M3 承诺的 10 天权重发布,两者可能会在同一窗口落地,比较将对哪一个属于你的推理舰队产生影响。如果你自己正在构建一个 continual-learning 平台,Bailian Agentic RL 声明是要学习的设计模式,供应商描述很薄但框架(真实世界执行反馈作为 RL 信号)是正确的形状。