阿里通義千問團隊發布了 Qwen3.5-LiveTranslate-Flash:一個即時多模態口譯系統,同時接受音訊和視訊幀作為輸入,產出翻譯後的文字和語音。60 種輸入語言、29 種語音輸出 —— 比之前的 Qwen3-LiveTranslate-Flash 的 18 種輸入,擴了 3 倍。WebSocket 協定下 per-token 到音訊出的延遲 2.8 秒,比上一個版本的約 3 秒降下來。視覺增強輸入包括唇動、手勢、螢幕文字。從單段話做即時聲音克隆。針對領域術語支援動態關鍵字注入。在 FLEURS 和 CoVoST2 上跑贏(未指名)對手。模型走「僅 API、閉權重」,透過阿里雲 Model Studio 用 DashScope API key 走 WebSocket —— 不上 HuggingFace,也不上 ModelScope。參數量和詳細架構都沒披露。
延遲優化的核心機制是「reading units」—— 在句子還沒說完前,先按語意分段處理,從而實現連續串流輸出。這就是為什麼一個 60 語種的多模態模型還能做到 per-token 2.8 秒;不做 streaming-aware 解碼,一個等價的模型延遲會落在 5 到 10 秒之間。視覺增強的輸入(讀唇、手勢、螢幕文字 OCR)給模型的訊號比純音訊多,對嘈雜環境或者音軌不清楚的視訊很有用。從單段話做聲音克隆,讓輸出語音可以貼著源說話人的音色 —— 這對無障礙場景(聾人到聽人的即時字幕,保留說話人身分)和讓會議翻譯顯得自然,都是實打實的料。閉權重這一步是值得點出來的戰略 move。Qwen 之前的發布(Qwen、Qwen2、Qwen2.5、Qwen3 base)都是開源權重。3.5-LiveTranslate-Flash 這條 sub-line 是阿里把一個可商業化的具體能力留在雲 API 後面,同時在 base-model 這一層繼續保留開源權重的口碑。
這跟本週「lab 戰略定位」這條線是接著走的。OpenAI:compute-and-scale 的 Stargate。Anthropic:研究速度(招 Karpathy)、Capability Curve 框架、MCP / Managed Agents / MCP Tunnels 這條協定和原語 infrastructure。Google:從 Antigravity 2.0、Gemini 3.5 Flash 到跟 Blackstone 做 TPU JV 的全棧縱向整合。Mistral:工業物理垂直(收購 Emmi)。阿里:base 模型開源權重,垂直應用閉權重,疊在上面賣。對在做 market structure 思考的 builder 來說,阿里這個 pattern 才是最該認真看的 ——開源 base 模型帶來開發者 mindshare 和生態,閉權重的垂直模型(今天是翻譯,以後可能是 voice、vision、特定領域的 reasoning)變成阿里雲的收入。具體到 Qwen3.5-LiveTranslate-Flash 的競品集:OpenAI Whisper 加 GPT-4-realtime、Google Translate Live、Meta SeamlessM4T、AssemblyAI 的串流產品。2.8 秒延遲、60 種輸入語言、聲音克隆、領域關鍵字注入,這些對即時口譯 use case 來說,都是真實的 differentiator。
週一上手:如果你做的是有即時翻譯需求的產品(會議 app、call center、broadcast、無障礙工具),把 Qwen3.5-LiveTranslate-Flash 跟 SeamlessM4T、Whisper streaming、Google Translate Live 一起,用你自己的音訊樣本,在你客戶真在用的那幾對語言上做一次實測。60 語種覆蓋和 2.8 秒延遲,透過 DashScope 第一天就能測。成本基礎要算帳:閉權重、僅 API,就是按呼叫次數計費;如果你用量很大,用 Whisper 加自己部署這種開源權重方案,即便延遲差一點、語種少一點,TCO 上還是可能贏。如果你服務的是中國市場或者中國終端使用者,阿里雲 DashScope 是自然整合點;其他人,這個「延遲+語種覆蓋」的 claim 都要拿真實生產音訊去驗證,不能光看 benchmark 數字。對更廣的 Qwen 生態:就假定 Qwen 未來的 capability 會越來越分兩層 —— base 模型在 HuggingFace 和 ModelScope 開權重,垂直應用走阿里雲僅 API。看下一次 Qwen base-model 的發布,看「這一層還守不守開源權重」。
