Stable Audio 3:4 模型家族,H200 上 0.45 秒生成 120 秒音樂,權重開源

Stability AI 本週發布了 Stable Audio 3——四個模型變體涵蓋音樂和音效生成,這次終於揭露了生產相關的數字。家族:**small-music**(4.59 億 diffusion transformer + 1.08 億 SAME-S autoencoder,約 5.67 億總參數,最長 2 分鐘,僅音樂),**small-sfx**(相同參數數,僅 SFX),**medium**(14 億 DiT + 8.52 億 SAME-L,約 22.5 億總,最長 6m20s,兩個領域),**large**(27 億 DiT + 8.52 億 SAME-L,約 35.5 億總,最長 6m20s,兩個領域)。整體 44.1 kHz 立體聲輸出。架構差異是 SAME autoencoder:**4096× 下取樣比率**透過兩階段壓縮(256× 切片 + 16× transformer 重取樣),為 44.1 kHz 輸入生成約 10.76 Hz 的 256 維 latents。之前的音訊 autoencoder 執行 1024-2048×——Stable Audio 的壓縮緊 2-4×,這是讓延遲故事成為可能的原因。

H200 上的延遲數字是頭條:small-music 在 **0.45 秒**內生成 120 秒的器樂音樂。Medium:120 秒音樂 0.78 秒,5 秒 SFX 0.60 秒。Large:120 秒音樂 0.81 秒,5 秒 SFX 0.64 秒。八步 ping-pong 取樣,無 classifier-free guidance。在 small-music 上比即時快約 267 倍——互動式工作流領域,不只是批次處理。品質基準:large 在 120 秒器樂音樂上達到 **FAD 0.101**(Fréchet Audio Distance,越低越好),文字-音訊對齊 **CLAP 0.393**,聽眾研究的**音樂性 MOS 4.30/5**(medium 為 4.15)。5 秒 SFX 上:large FAD 0.358,CLAP 0.370。編輯能力:inpainting(單或多區域——medium 單區域編輯 FAD 0.046)和透過因果前綴遮罩的續寫。Outpainting 不在範圍內。

生態解讀:這是開源權重的舉動,在 closed-source SOTA 上奪回了有意義的地面。Small 和 medium 權重在 HuggingFace 上以標準 Stability 授權條款發布;large 變體被鎖在企業授權後面。發布未發布與 MusicGen、Suno、Udio、AudioLDM 或 ElevenLabs Music 的正面比較——讀者應將 FAD/CLAP/MOS 數字視為 Stability 的自報告評分,而非競爭對決。對於在產品中部署音訊生成的 builder,工作流故事是差異化點:H200 上 120 秒音樂 0.45 秒意味著面向使用者的應用可以每個提示在 <1 秒內迭代音訊,無需排隊。這是將 audio-gen 從「提交時渲染,等待,交付」轉變為「拖動一個生成參數,立即聽到變化」的延遲下限。Repo:github.com/Stability-AI/stable-audio-3。

週一早上:如果你在產品中建構音訊生成(遊戲音訊、podcast/影片創作者工具、無障礙、音樂應用),在本地測試 medium 變體——這是開源權重 + 多領域 + 6m20s 時長的甜點。Inpainting 在 FAD 0.046 意味著你可以提供「重新生成這 4 秒部分」的 UX,而無需重建整個音軌。Large 變體的企業 gating 是陷阱——如果你的產品需要 +0.15 音樂性 MOS 改善,計劃與 Stability 進行授權對話。誠實的未解決的差距:未討論人聲生成(只提到器樂 + SFX),未揭露訓練資料(商業音樂輸出的版權問題仍然開放),未對比 Suno/Udio(明顯的對照),未與 ElevenLabs Music 比較。small/medium 的開源權重是架構範本版本;生產部署需要在商業發布前進行自己的授權稽核。

Stable Audio 3:4 模型家族,H200 上 0.45 秒生成 120 秒音樂,權重開源

更多新聞