Modelos de geração de música usam duas abordagens principais: modelos nativos de áudio (geram formas de onda de áudio bruto usando arquiteturas similares a modelos de difusão ou Transformers autorregressivos) e modelos baseados em MIDI (geram notação musical simbólica que depois é renderizada com sintetizadores). Modelos nativos de áudio (Suno, MusicGen) produzem resultados mais realistas mas são computacionalmente caros. Abordagens MIDI são mais controláveis mas soam menos naturais.
Música com IA levanta questões intensas de copyright. Modelos treinados em música protegida por direitos autorais podem reproduzir elementos reconhecíveis — uma melodia, um estilo vocal, uma técnica de produção. Algumas plataformas foram processadas por gravadoras. O status legal está evoluindo: gerar "música no estilo de" um artista pode ser legal (estilo não é patenteável), mas gerar algo que soa como uma música específica não é. A maioria dos serviços comerciais de música com IA implementa filtros para evitar gerar conteúdo muito similar a obras protegidas conhecidas.
Além de substituir músicos, música com IA possibilita novos fluxos de trabalho criativos: gerar faixas demo que produtores depois refinam, criar trilhas sonoras adaptativas que mudam com base no gameplay, produzir música personalizada (uma canção de ninar com o nome do seu filho) e possibilitar produção musical para pessoas com ideias mas sem habilidades instrumentais. As aplicações mais interessantes tratam a IA como uma colaboradora criativa em vez de uma substituta.