OpenMOSS,与复旦大学有联系、与 MOSI.AI 和上海创新研究院合作的开源 AI 实验室,今天发布了 MOSS-Audio,一个统一了语音转录、环境声音理解、音乐分析、以及他们称之为时间感知音频推理的音频基础模型家族——所有这些都在一个架构里,而不是平时那种专用模型堆叠。共有四个变体:4B 和 8B 两个尺寸,每个都有 Instruct 和 Thinking 两个配置,总共大约 4.6B 和 8.6B 参数。架构是三组件堆叠:一个以 12.5 Hz 时间分辨率运行的音频编码器、一个模态适配器、以及一个 Qwen3-4B 或 Qwen3-8B 语言模型主干。权重在 HuggingFace 上 huggingface.co/collections/OpenMOSS-Team/moss-audio,代码在 GitHub 上 github.com/OpenMOSS/MOSS-Audio。这次发布是 2026 年模型发布主导模式——中国实验室开源权重对决西方闭源前沿——的又一个数据点。

技术上有意思的部分是时间感知能力,这是当前前沿闭源音频模型里没有的部分。MOSS-Audio 在预训练时把显式时间标记 token 按固定间隔插入音频帧表示中,这意味着模型原生地学会把内容绑定到绝对时间戳,而不是作为一个事后的推理步骤。下游效果是模型可以回答"说话人在 2 分钟标记处说了什么",时间戳直接嵌在回答文本里,不需要单独的对齐步骤。具体到带时间戳的 ASR,MOSS-Audio-8B-Instruct 在 AISHELL-1 上拿到 35.77 AAS、在 LibriSpeech 上拿到 131.61 AAS,按公开数字算戏剧性地优于 Qwen3-Omni-30B 的 833.66 和 Gemini-3.1-Pro 的 708.24。AAS 越低越好,所以这是真实差距,不是营销友好的切片。在通用音频理解上,8B-Thinking 模型在 MMAU/MMAU-Pro/MMAR/MMSU 上平均 71.08%,领先 Step-Audio-R1 的 70.67%(尽管 Step 是 33B)、Qwen3-Omni-30B 的 67.91%、MiMo-Audio-7B 的 62.97%、以及 Kimi-Audio-7B 的 61.14%。语音描述评估由 LLM 作为评判者在 13 个维度(包括性别、口音、情感、语调)打分,8B-Instruct 在其中 11 个维度领先,平均分 3.7252。在 12 维 ASR 评估上 11.30 的字符错误率是比较集里最低的。

更广含义是开源权重音频模型前沿在时间感知任务上具体地超过了闭源前沿,而更广的音频理解前沿则收紧了。一个基于 Qwen3 的 8B 开源模型在 MMAU 上击败 33B Step-Audio 模型,是任何在搭建生产音频 pipeline 的人都该关注的效率曲线更新,因为它直接改变了每任务推理成本的算式。MOSS-Audio 在带时间戳的 ASR 上也超过 Gemini-3.1-Pro(一个闭源旗舰)这件事更难被打成"刷分",因为时间戳准确性是机械可测的。所有这些上的限定是基准数据来自 OpenMOSS 论文,还没有被独立复现;做第一次独立复现的人会成为承重数据点。另一个限定是音频基准生态仍然比文本基准更小、更嘈杂,MMAU-Pro 和 MMSU 相对新,而基准胜出和生产实用性之间的差距是真实的。但是亚 10B 参数级的开源音频模型现在在有可测评估的任务上真的能与 30B 级闭源层竞争——12 个月前还做不到。

对做音频的工程师来说,三件实际的事情会变。第一,如果你跑语音转文本然后用单独步骤做时间戳对齐(Whisper 转录后跟强制对齐),MOSS-Audio 提供把两件事做在一个模型里的选择,简化了 pipeline,在 8B 上端到端可能更快。第二,单一模型里的多模态音频能力(说话人识别、情感、环境声、音乐风格)意味着你可以在那种当前把转录模型、情感分类器和声音事件检测器串起来的音频 pipeline 产品里减少模型数量;权衡是单体模型对单组件替换更难,所以这更适合 greenfield 产品,而不是渐进式改造。第三,开源权重许可(文章没指明确切许可证,所以做任何商业用途之前先在 GitHub 上检查)让这个东西可以部署到客户基础设施上,用于那些把音频送到闭源 API 不可接受的用例。医疗语音笔记、机密环境转录(实时政策辩论今天因谷歌-五角大楼员工信件刚刚被重新打磨)、和设备端助手现在都有 4-8B 尺寸级的可信开源权重选择。MOSS-Audio 能否经得起独立基准复现是接下来 30 天值得追踪的问题;如果可以,2026 剩下时间的音频模型竞争格局相比上周会有显著不同。