Stability AI 本周发布了 Stable Audio 3——四个模型变体涵盖音乐和音效生成,这次终于披露了生产相关的数字。家族:**small-music**(4.59 亿 diffusion transformer + 1.08 亿 SAME-S autoencoder,约 5.67 亿总参数,最长 2 分钟,仅音乐),**small-sfx**(相同参数数,仅 SFX),**medium**(14 亿 DiT + 8.52 亿 SAME-L,约 22.5 亿总,最长 6m20s,两个领域),**large**(27 亿 DiT + 8.52 亿 SAME-L,约 35.5 亿总,最长 6m20s,两个领域)。整体 44.1 kHz 立体声输出。架构差异是 SAME autoencoder:**4096× 下采样比率**通过两阶段压缩(256× 切片 + 16× transformer 重采样),为 44.1 kHz 输入生成约 10.76 Hz 的 256 维 latents。之前的音频 autoencoder 运行 1024-2048×——Stable Audio 的压缩紧 2-4×,这是让延迟故事成为可能的原因。
H200 上的延迟数字是头条:small-music 在 **0.45 秒**内生成 120 秒的器乐音乐。Medium:120 秒音乐 0.78 秒,5 秒 SFX 0.60 秒。Large:120 秒音乐 0.81 秒,5 秒 SFX 0.64 秒。八步 ping-pong 采样,无 classifier-free guidance。在 small-music 上比实时快约 267 倍——交互式工作流领域,不只是批处理。质量基准:large 在 120 秒器乐音乐上达到 **FAD 0.101**(Fréchet Audio Distance,越低越好),文本-音频对齐 **CLAP 0.393**,听众研究的**音乐性 MOS 4.30/5**(medium 为 4.15)。5 秒 SFX 上:large FAD 0.358,CLAP 0.370。编辑能力:inpainting(单或多区域——medium 单区域编辑 FAD 0.046)和通过因果前缀掩码的续写。Outpainting 不在范围内。
生态解读:这是开源权重的举动,在 closed-source SOTA 上夺回了有意义的地面。Small 和 medium 权重在 HuggingFace 上以标准 Stability 授权条款发布;large 变体被锁在企业授权后面。发布未发布与 MusicGen、Suno、Udio、AudioLDM 或 ElevenLabs Music 的正面比较——读者应将 FAD/CLAP/MOS 数字视为 Stability 的自报告评分,而非竞争对决。对于在产品中部署音频生成的 builder,工作流故事是差异化点:H200 上 120 秒音乐 0.45 秒意味着面向用户的应用可以每个提示在 <1 秒内迭代音频,无需排队。这是将 audio-gen 从「提交时渲染,等待,交付」转变为「拖动一个生成参数,立即听到变化」的延迟下限。仓库:github.com/Stability-AI/stable-audio-3。
周一上午:如果你在产品中构建音频生成(游戏音频、播客/视频创作者工具、无障碍、音乐应用),在本地测试 medium 变体——这是开源权重 + 多领域 + 6m20s 时长的甜点。Inpainting 在 FAD 0.046 意味着你可以提供「重新生成这 4 秒部分」的 UX,而无需重建整个轨道。Large 变体的企业 gating 是陷阱——如果你的产品需要 +0.15 音乐性 MOS 改善,计划与 Stability 进行授权对话。诚实的未解决的差距:未讨论人声生成(只提到器乐 + SFX),未披露训练数据(商业音乐输出的版权问题仍然开放),未对比 Suno/Udio(明显的对照),未与 ElevenLabs Music 比较。small/medium 的开源权重是架构模板版本;生产部署需要在商业发布前进行自己的授权审计。
