阿里巴巴Qwen3.5-Omni聲稱憑藉原生音訊架構獲得215項SOTA勝利

阿里巴巴Qwen團隊發佈了Qwen3.5-Omni，聲稱憑藉原生多模態架構在215個benchmark上達到最先進效能，該架構在單一pipeline中處理文字、音訊、影片和圖像。旗艦Plus模型採用「Thinker-Talker」設計，配備Hybrid-Attention Mixture of Experts，支援256k上下文視窗，可處理超過10小時連續音訊或400秒720p影片。與之前將獨立編碼器拼接到文字backbone的多模態模型不同，Qwen3.5-Omni在1億小時音視訊資料上原生訓練其Audio Transformer。

這代表了對主導多模態AI的wrapper方法的真正架構性轉變。大多數當前系統仍使用Whisper等外部編碼器進行音訊處理，造成延遲瓶頸和整合難題。Qwen的端到端訓練理論上應該提供更好的跨模態理解和更快推理，直接挑戰Google的Gemini方法。MoE設計讓他們可以聲稱大規模參數數量，同時保持活躍計算可控——這對即時應用至關重要。

「215 SOTA」聲明聽起來令人印象深刻，但缺乏關於哪些benchmark、勝利幅度或比較方法的關鍵背景。學術benchmark往往無法轉化為真實世界效能，阿里巴巴的歷史記錄包括之前誇大的聲明。更說明問題的是開發者是否真的能透過API存取這些功能，以及定價與GPT-4o或Gemini等成熟替代方案的比較。

對開發者而言，真正的測試是實際部署。如果Qwen3.5-Omni在保持品質的同時兌現延遲承諾，可能會撼動多模態應用——特別是在中文任務上，阿里巴巴歷史上超越西方模型。三層方法(Plus/Flash/Light)表明他們理解開發者面臨的成本-效能權衡，但沒有公共API存取或獨立benchmark測試，這仍然是另一個令人印象深刻的展示，直到得到證明。

阿里巴巴Qwen3.5-Omni聲稱憑藉原生音訊架構獲得215項SOTA勝利

更多新聞