阿里通义千问团队发布了 Qwen3.5-LiveTranslate-Flash:一个实时多模态口译系统,同时接受音频和视频帧作为输入,产出翻译后的文本和语音。60 种输入语言、29 种语音输出 —— 比之前的 Qwen3-LiveTranslate-Flash 的 18 种输入,扩了 3 倍。WebSocket 协议下 per-token 到音频出的延迟 2.8 秒,比上一个版本的约 3 秒降下来。视觉增强输入包括唇动、手势、屏幕文字。从单段话做实时声音克隆。针对领域术语支持动态关键词注入。在 FLEURS 和 CoVoST2 上跑赢(未指名)对手。模型走「仅 API、闭权重」,通过阿里云 Model Studio 用 DashScope API key 走 WebSocket —— 不上 HuggingFace,也不上 ModelScope。参数量和详细架构都没披露。
延迟优化的核心机制是「reading units」—— 在句子还没说完前,先按语义分段处理,从而实现连续流式输出。这就是为什么一个 60 语种的多模态模型还能做到 per-token 2.8 秒;不做 streaming-aware 解码,一个等价的模型延迟会落在 5 到 10 秒之间。视觉增强的输入(读唇、手势、屏幕文字 OCR)给模型的信号比纯音频多,对嘈杂环境或者音轨不清楚的视频很有用。从单段话做声音克隆,让输出语音可以贴着源说话人的音色 —— 这对无障碍场景(聋人到听人的实时字幕,保留说话人身份)和让会议翻译显得自然,都是实打实的料。闭权重这一步是值得点出来的战略 move。Qwen 之前的发布(Qwen、Qwen2、Qwen2.5、Qwen3 base)都是开源权重。3.5-LiveTranslate-Flash 这条 sub-line 是阿里把一个可商业化的具体能力留在云 API 后面,同时在 base-model 这一层继续保留开源权重的口碑。
这跟本周「lab 战略定位」这条线是接着走的。OpenAI:compute-and-scale 的 Stargate。Anthropic:研究速度(招 Karpathy)、Capability Curve 框架、MCP / Managed Agents / MCP Tunnels 这条协议和原语 infrastructure。Google:从 Antigravity 2.0、Gemini 3.5 Flash 到跟 Blackstone 做 TPU JV 的全栈纵向整合。Mistral:工业物理垂直(收购 Emmi)。阿里:base 模型开源权重,垂直应用闭权重,叠在上面卖。对在做 market structure 思考的 builder 来说,阿里这个 pattern 才是最该认真看的 ——开源 base 模型带来开发者 mindshare 和生态,闭权重的垂直模型(今天是翻译,以后可能是 voice、vision、特定领域的 reasoning)变成阿里云的收入。具体到 Qwen3.5-LiveTranslate-Flash 的竞品集:OpenAI Whisper 加 GPT-4-realtime、Google Translate Live、Meta SeamlessM4T、AssemblyAI 的流式产品。2.8 秒延迟、60 种输入语言、声音克隆、领域关键词注入,这些对实时口译 use case 来说,都是真实的 differentiator。
周一上手:如果你做的是有实时翻译需求的产品(会议 app、call center、broadcast、无障碍工具),把 Qwen3.5-LiveTranslate-Flash 跟 SeamlessM4T、Whisper streaming、Google Translate Live 一起,用你自己的音频样本,在你客户真在用的那几对语言上做一次实测。60 语种覆盖和 2.8 秒延迟,通过 DashScope 第一天就能测。成本基础要算账:闭权重、仅 API,就是按调用次数计费;如果你用量很大,用 Whisper 加自己部署这种开源权重方案,即便延迟差一点、语种少一点,TCO 上还是可能赢。如果你服务的是中国市场或者中国终端用户,阿里云 DashScope 是自然集成点;其他人,这个「延迟+语种覆盖」的 claim 都要拿真实生产音频去验证,不能光看 benchmark 数字。对更广的 Qwen 生态:就假定 Qwen 未来的 capability 会越来越分两层 —— base 模型在 HuggingFace 和 ModelScope 开权重,垂直应用走阿里云仅 API。看下一次 Qwen base-model 的发布,看「这一层还守不守开源权重」。
