OpenMOSS,與復旦大學有聯繫、與 MOSI.AI 和上海創新研究院合作的開源 AI 實驗室,今天發布了 MOSS-Audio,一個統一了語音轉錄、環境聲音理解、音樂分析、以及他們稱之為時間感知音訊推理的音訊基礎模型家族——所有這些都在一個架構裡,而不是平時那種專用模型堆疊。共有四個變體:4B 和 8B 兩個尺寸,每個都有 Instruct 和 Thinking 兩個配置,總共大約 4.6B 和 8.6B 參數。架構是三元件堆疊:一個以 12.5 Hz 時間解析度運行的音訊編碼器、一個模態適配器、以及一個 Qwen3-4B 或 Qwen3-8B 語言模型主幹。權重在 HuggingFace 上 huggingface.co/collections/OpenMOSS-Team/moss-audio,程式碼在 GitHub 上 github.com/OpenMOSS/MOSS-Audio。這次發布是 2026 年模型發布主導模式——中國實驗室開源權重對決西方閉源前沿——的又一個資料點。
技術上有意思的部分是時間感知能力,這是當前前沿閉源音訊模型裡沒有的部分。MOSS-Audio 在預訓練時把顯式時間標記 token 按固定間隔插入音訊幀表示中,這意味著模型原生地學會把內容綁定到絕對時間戳,而不是作為一個事後的推論步驟。下游效果是模型可以回答"說話人在 2 分鐘標記處說了什麼",時間戳直接嵌在回答文字裡,不需要單獨的對齊步驟。具體到帶時間戳的 ASR,MOSS-Audio-8B-Instruct 在 AISHELL-1 上拿到 35.77 AAS、在 LibriSpeech 上拿到 131.61 AAS,按公開數字算戲劇性地優於 Qwen3-Omni-30B 的 833.66 和 Gemini-3.1-Pro 的 708.24。AAS 越低越好,所以這是真實差距,不是行銷友好的切片。在通用音訊理解上,8B-Thinking 模型在 MMAU/MMAU-Pro/MMAR/MMSU 上平均 71.08%,領先 Step-Audio-R1 的 70.67%(儘管 Step 是 33B)、Qwen3-Omni-30B 的 67.91%、MiMo-Audio-7B 的 62.97%、以及 Kimi-Audio-7B 的 61.14%。語音描述評估由 LLM 作為評判者在 13 個維度(包括性別、口音、情感、語調)打分,8B-Instruct 在其中 11 個維度領先,平均分 3.7252。在 12 維 ASR 評估上 11.30 的字元錯誤率是比較集裡最低的。
更廣含義是開源權重音訊模型前沿在時間感知任務上具體地超過了閉源前沿,而更廣的音訊理解前沿則收緊了。一個基於 Qwen3 的 8B 開源模型在 MMAU 上擊敗 33B Step-Audio 模型,是任何在搭建生產音訊 pipeline 的人都該關注的效率曲線更新,因為它直接改變了每任務推論成本的算式。MOSS-Audio 在帶時間戳的 ASR 上也超過 Gemini-3.1-Pro(一個閉源旗艦)這件事更難被打成"刷分",因為時間戳準確性是機械可測的。所有這些上的限定是基準資料來自 OpenMOSS 論文,還沒有被獨立複現;做第一次獨立複現的人會成為承重資料點。另一個限定是音訊基準生態仍然比文字基準更小、更嘈雜,MMAU-Pro 和 MMSU 相對新,而基準勝出和生產實用性之間的差距是真實的。但是亞 10B 參數級的開源音訊模型現在在有可測評估的任務上真的能與 30B 級閉源層競爭——12 個月前還做不到。
對做音訊的工程師來說,三件實際的事情會變。第一,如果你跑語音轉文字然後用單獨步驟做時間戳對齊(Whisper 轉錄後跟強制對齊),MOSS-Audio 提供把兩件事做在一個模型裡的選擇,簡化了 pipeline,在 8B 上端到端可能更快。第二,單一模型裡的多模態音訊能力(說話人識別、情感、環境聲、音樂風格)意味著你可以在那種當前把轉錄模型、情感分類器和聲音事件檢測器串起來的音訊 pipeline 產品裡減少模型數量;權衡是單體模型對單元件替換更難,所以這更適合 greenfield 產品,而不是漸進式改造。第三,開源權重許可(文章沒指明確切許可證,所以做任何商業用途之前先在 GitHub 上檢查)讓這個東西可以部署到客戶基礎設施上,用於那些把音訊送到閉源 API 不可接受的用例。醫療語音筆記、機密環境轉錄(即時政策辯論今天因 Google-五角大廈員工信件剛剛被重新打磨)、和裝置端助手現在都有 4-8B 尺寸級的可信開源權重選擇。MOSS-Audio 能否經得起獨立基準複現是接下來 30 天值得追蹤的問題;如果可以,2026 剩下時間的音訊模型競爭格局相比上週會有顯著不同。
