阿里巴巴Qwen團隊發佈了Qwen3.5-Omni,聲稱憑藉原生多模態架構在215個benchmark上達到最先進效能,該架構在單一pipeline中處理文字、音訊、影片和圖像。旗艦Plus模型採用「Thinker-Talker」設計,配備Hybrid-Attention Mixture of Experts,支援256k上下文視窗,可處理超過10小時連續音訊或400秒720p影片。與之前將獨立編碼器拼接到文字backbone的多模態模型不同,Qwen3.5-Omni在1億小時音視訊資料上原生訓練其Audio Transformer。

這代表了對主導多模態AI的wrapper方法的真正架構性轉變。大多數當前系統仍使用Whisper等外部編碼器進行音訊處理,造成延遲瓶頸和整合難題。Qwen的端到端訓練理論上應該提供更好的跨模態理解和更快推理,直接挑戰Google的Gemini方法。MoE設計讓他們可以聲稱大規模參數數量,同時保持活躍計算可控——這對即時應用至關重要。

「215 SOTA」聲明聽起來令人印象深刻,但缺乏關於哪些benchmark、勝利幅度或比較方法的關鍵背景。學術benchmark往往無法轉化為真實世界效能,阿里巴巴的歷史記錄包括之前誇大的聲明。更說明問題的是開發者是否真的能透過API存取這些功能,以及定價與GPT-4o或Gemini等成熟替代方案的比較。

對開發者而言,真正的測試是實際部署。如果Qwen3.5-Omni在保持品質的同時兌現延遲承諾,可能會撼動多模態應用——特別是在中文任務上,阿里巴巴歷史上超越西方模型。三層方法(Plus/Flash/Light)表明他們理解開發者面臨的成本-效能權衡,但沒有公共API存取或獨立benchmark測試,這仍然是另一個令人印象深刻的展示,直到得到證明。