Stable Audio 3: família de 4 modelos, 0.45s pra 120s música no H200, pesos abertos

A Stability AI shipou Stable Audio 3 essa semana — quatro variantes de modelo abrangendo geração de música e efeitos sonoros, com os números relevantes pra produção realmente divulgados pra variar. A família: **small-music** (459M diffusion transformer + 108M SAME-S autoencoder, ~567M total, máx 2 min, só música), **small-sfx** (mesmo parameter count, só SFX), **medium** (1.4B DiT + 852M SAME-L, ~2.25B total, máx 6m20s, ambos domínios), **large** (2.7B DiT + 852M SAME-L, ~3.55B total, máx 6m20s, ambos domínios). Output 44.1 kHz estéreo em tudo. A delta arquitetural é o autoencoder SAME: **razão de downsampling 4096×** via compressão two-stage (patching 256× + transformer resampling 16×), produzindo latents 256-dim a ~10.76 Hz pra input 44.1 kHz. Autoencoders de áudio anteriores rodam 1024-2048× — a compressão do Stable Audio é 2-4× mais apertada, isso é o que torna a história de latência possível.

Os números de latência no H200 são a manchete: small-music gera 120 segundos de música instrumental em **0.45 segundos**. Medium: 0.78s pra 120s música, 0.60s pra 5s SFX. Large: 0.81s pra 120s música, 0.64s pra 5s SFX. Sampling ping-pong de oito passos, sem classifier-free guidance. É mais rápido que tempo real por ~267× no small-music — território de workflow interativo, não só batch. Benchmarks de qualidade: large atinge **FAD 0.101** em música instrumental de 120s (Fréchet Audio Distance, menor melhor) e **CLAP 0.393** pra alinhamento texto-áudio, com um **MOS de musicalidade 4.30/5** de estudo de ouvintes (vs medium em 4.15). Em SFX 5s: large FAD 0.358, CLAP 0.370. Capacidades de edição: inpainting (single ou multi-região — medium FAD 0.046 pra edições single-region) e continuação via causal prefix masking. Outpainting fora do escopo.

Leitura ecossistema: esse é o movimento de pesos abertos que fecha terreno significativo no closed-source SOTA. Os pesos small e medium são shipados no HuggingFace sob termos de licenciamento Stability padrão; a variante large é gated atrás de licenciamento enterprise. O release não publica comparações head-to-head contra MusicGen, Suno, Udio, AudioLDM, ou ElevenLabs Music — leitores devem tratar os números FAD/CLAP/MOS como pontuação auto-reportada da Stability, não um shootout competitivo. Pra builders deployando geração de áudio em produto, a história de workflow é o diferenciador: 0.45s pra 120s de música no H200 significa que um app user-facing pode iterar áudio em <1s por prompt sem queueing. Esse é o piso de latência que transforma audio-gen de "render at submit, wait, deliver" em "scrub um parâmetro de geração, ouça a mudança imediatamente." Repo: github.com/Stability-AI/stable-audio-3.

Segunda de manhã: se você constrói geração de áudio num produto (áudio de jogo, ferramentas de criador podcast/vídeo, acessibilidade, apps de música), teste a variante medium localmente — é o sweet spot de open-weight + multi-domain + duração 6m20s. Inpainting em FAD 0.046 significa que você pode oferecer UX "regenerar essa seção de 4 segundos" sem reconstruir o track inteiro. O gating enterprise da variante large é o catch — se teu produto precisa da melhoria +0.15 de MOS de musicalidade, planeje conversas de licenciamento com a Stability. Lacunas honestas não-abordadas: sem discussão de geração vocal (só instrumental + SFX mencionados), sem divulgação de training-data (as perguntas de copyright pra outputs comerciais de música seguem abertas), sem head-to-heads vs Suno/Udio (os comps óbvios), sem comparação ao ElevenLabs Music. Os pesos abertos em small/medium são o release de template arquitetural; os deployments de produção precisam fazer sua própria auditoria de licenciamento antes do ship comercial.

Stable Audio 3: família de 4 modelos, 0.45s pra 120s música no H200, pesos abertos

Mais notícias