Stable Audio 3 : famille 4-modèles, 0,45s pour 120s musique sur H200, weights open

Stability AI a shippé Stable Audio 3 cette semaine — quatre variants de modèle spanning génération de musique et sound effects, avec les chiffres production-relevant réellement divulgués pour une fois. La famille : **small-music** (459M diffusion transformer + 108M SAME-S autoencoder, ~567M total, max 2 min, musique seulement), **small-sfx** (même parameter count, SFX seulement), **medium** (1,4B DiT + 852M SAME-L, ~2,25B total, max 6m20s, les deux domains), **large** (2,7B DiT + 852M SAME-L, ~3,55B total, max 6m20s, les deux domains). Output 44,1 kHz stéréo throughout. La delta architecturale c'est l'autoencoder SAME : **ratio de downsampling 4096×** via compression two-stage (patching 256× + transformer resampling 16×), produisant des latents 256-dim à ~10,76 Hz pour input 44,1 kHz. Les autoencoders audio antérieurs roulent 1024-2048× — la compression de Stable Audio est 2-4× plus tight, c'est ce qui rend la story de latence possible.

Les chiffres de latence sur H200 c'est le headline : small-music génère 120 secondes de musique instrumentale en **0,45 secondes**. Medium : 0,78s pour 120s musique, 0,60s pour 5s SFX. Large : 0,81s pour 120s musique, 0,64s pour 5s SFX. Sampling ping-pong huit-steps, pas de classifier-free guidance. C'est plus rapide que real-time de ~267× sur small-music — territoire de workflow interactif, pas batch-only. Quality benchmarks : large hit **FAD 0,101** sur musique instrumentale 120s (Fréchet Audio Distance, plus bas mieux) et **CLAP 0,393** pour alignement text-audio, avec un **MOS musicality 4,30/5** d'une étude d'auditeurs (vs medium à 4,15). Sur SFX 5s : large FAD 0,358, CLAP 0,370. Capabilities d'édition : inpainting (single ou multi-region — medium FAD 0,046 pour single-region edits) et continuation via causal prefix masking. Outpainting hors scope.

Lecture écosystème : c'est le move open-weights qui ferme du terrain meaningful sur le closed-source SOTA. Les weights small et medium ship sur HuggingFace sous termes de licensing Stability standard ; le variant large est gated derrière licensing enterprise. Le release ne publie pas de comparaisons head-to-head contre MusicGen, Suno, Udio, AudioLDM, ou ElevenLabs Music — les readers devraient traiter les chiffres FAD/CLAP/MOS comme self-reported scoring de Stability, pas un shootout compétitif. Pour les builders qui déploient de la génération audio en produit, la story de workflow c'est le différenciateur : 0,45s pour 120s de musique sur H200 veut dire qu'une app user-facing peut itérer l'audio en <1s par prompt sans queueing. C'est le plancher de latence qui transforme audio-gen de "render at submit, wait, deliver" en "scrub un paramètre de génération, entend le changement immédiatement." Repo : github.com/Stability-AI/stable-audio-3.

Lundi matin : si tu builds de la génération audio dans un produit (audio de jeu, outils créateur podcast/vidéo, accessibilité, apps musique), test le variant medium localement — c'est le sweet spot de open-weight + multi-domain + durée 6m20s. Inpainting à FAD 0,046 veut dire que tu peux offrir une UX "regénérer cette section de 4 secondes" sans rebuild la track entière. Le gating enterprise du variant large c'est le catch — si ton produit a besoin de l'amélioration +0,15 de MOS musicality, plan pour des conversations de licensing avec Stability. Gaps honnêtes non-adressés : pas de discussion de génération vocale (instrumental + SFX seulement mentionnés), pas de divulgation de training-data (les questions de copyright pour les outputs commerciaux de musique restent ouvertes), pas de head-to-heads vs Suno/Udio (les comps évidents), pas de comparaison à ElevenLabs Music. Les weights open en small/medium c'est le release de template architectural ; les déploiements production doivent faire leur propre audit de licensing avant ship commercial.

Stable Audio 3 : famille 4-modèles, 0,45s pour 120s musique sur H200, weights open

Plus de nouvelles