Les modèles de génération de musique utilisent deux approches principales : les modèles natifs audio (génèrent des formes d'onde brutes en utilisant des architectures similaires aux modèles de diffusion ou aux Transformers autorégressifs) et les modèles basés sur MIDI (génèrent de la notation musicale symbolique qui est ensuite rendue avec des synthétiseurs). Les modèles natifs audio (Suno, MusicGen) produisent des résultats plus réalistes mais sont gourmands en calcul. Les approches MIDI sont plus contrôlables mais moins naturelles.
La musique IA soulève des questions de droits d'auteur intenses. Les modèles entraînés sur de la musique sous copyright peuvent reproduire des éléments reconnaissables — une mélodie, un style vocal, une technique de production. Certaines plateformes ont été poursuivies par des labels. Le statut légal évolue : générer « de la musique dans le style de » un artiste peut être légal (le style n'est pas protégeable), mais générer quelque chose qui ressemble à une chanson spécifique ne l'est pas. La plupart des services commerciaux de musique IA implémentent des filtres pour empêcher la génération de contenu trop similaire à des œuvres connues sous copyright.
Au-delà du remplacement des musiciens, la musique IA permet de nouveaux workflows créatifs : générer des pistes de démo que les producteurs affinent ensuite, créer des bandes sonores de jeu adaptatives qui changent selon le gameplay, produire de la musique personnalisée (une berceuse avec le nom de ton enfant), et permettre la production musicale pour les gens qui ont des idées mais pas de compétences instrumentales. Les applications les plus intéressantes traitent l'IA comme un collaborateur créatif plutôt qu'un remplacement.