Stable Audio 3: familia 4-modelos, 0.45s para 120s música en H200, pesos abiertos

Stability AI envió Stable Audio 3 esta semana — cuatro variantes de modelo abarcando generación de música y efectos de sonido, con los números relevantes para producción realmente divulgados por una vez. La familia: **small-music** (459M diffusion transformer + 108M SAME-S autoencoder, ~567M total, máx 2 min, solo música), **small-sfx** (mismo parameter count, solo SFX), **medium** (1.4B DiT + 852M SAME-L, ~2.25B total, máx 6m20s, ambos dominios), **large** (2.7B DiT + 852M SAME-L, ~3.55B total, máx 6m20s, ambos dominios). Output 44.1 kHz estéreo en todo. La delta arquitectónica es el autoencoder SAME: **ratio de downsampling 4096×** vía compresión two-stage (patching 256× + transformer resampling 16×), produciendo latents 256-dim a ~10.76 Hz para input 44.1 kHz. Los autoencoders de audio previos corren 1024-2048× — la compresión de Stable Audio es 2-4× más ajustada, eso es lo que hace posible la historia de latencia.

Los números de latencia en H200 son el titular: small-music genera 120 segundos de música instrumental en **0.45 segundos**. Medium: 0.78s para 120s música, 0.60s para 5s SFX. Large: 0.81s para 120s música, 0.64s para 5s SFX. Sampling ping-pong de ocho pasos, sin classifier-free guidance. Es más rápido que tiempo real por ~267× en small-music — territorio de workflow interactivo, no solo batch. Benchmarks de calidad: large alcanza **FAD 0.101** en música instrumental de 120s (Fréchet Audio Distance, menor mejor) y **CLAP 0.393** para alineamiento texto-audio, con un **MOS de musicalidad 4.30/5** de estudio de oyentes (vs medium en 4.15). En SFX 5s: large FAD 0.358, CLAP 0.370. Capacidades de edición: inpainting (single o multi-región — medium FAD 0.046 para ediciones single-region) y continuación vía causal prefix masking. Outpainting fuera de alcance.

Lectura ecosistema: este es el movimiento de pesos abiertos que cierra terreno significativo en el closed-source SOTA. Los pesos small y medium se envían en HuggingFace bajo términos de licenciamiento Stability estándar; el variant large está gated detrás de licenciamiento enterprise. El release no publica comparaciones head-to-head contra MusicGen, Suno, Udio, AudioLDM, o ElevenLabs Music — los lectores deberían tratar los números FAD/CLAP/MOS como puntuación auto-reportada de Stability, no un shootout competitivo. Para builders desplegando generación de audio en producto, la historia de workflow es el diferenciador: 0.45s para 120s de música en H200 significa que una app user-facing puede iterar audio en <1s por prompt sin queueing. Ese es el piso de latencia que convierte audio-gen de "render at submit, wait, deliver" a "scrub un parámetro de generación, oye el cambio inmediatamente." Repo: github.com/Stability-AI/stable-audio-3.

Lunes por la mañana: si construyes generación de audio en un producto (audio de juego, herramientas de creador podcast/video, accesibilidad, apps de música), prueba el variant medium localmente — es el sweet spot de open-weight + multi-domain + duración 6m20s. Inpainting en FAD 0.046 significa que puedes ofrecer UX "regenerar esta sección de 4 segundos" sin reconstruir el track entero. El gating enterprise del variant large es el catch — si tu producto necesita la mejora +0.15 de MOS de musicalidad, planea conversaciones de licenciamiento con Stability. Gaps honestos no abordados: sin discusión de generación vocal (solo instrumental + SFX mencionados), sin divulgación de training-data (las preguntas de copyright para outputs comerciales de música siguen abiertas), sin head-to-heads vs Suno/Udio (los comps obvios), sin comparación a ElevenLabs Music. Los pesos abiertos en small/medium son el release de plantilla arquitectónica; los despliegues de producción necesitan hacer su propia auditoría de licenciamiento antes del ship comercial.

Stable Audio 3: familia 4-modelos, 0.45s para 120s música en H200, pesos abiertos

Más noticias