Los modelos de generación de música usan dos enfoques principales: modelos nativos de audio (generan formas de onda de audio crudo usando arquitecturas similares a modelos de diffusion o Transformers autoregresivos) y modelos basados en MIDI (generan notación musical simbólica que luego se renderiza con sintetizadores). Los modelos nativos de audio (Suno, MusicGen) producen resultados más realistas pero son computacionalmente costosos. Los enfoques MIDI son más controlables pero suenan menos naturales.
La música con IA plantea intensas preguntas de derechos de autor. Los modelos entrenados con música con derechos de autor pueden reproducir elementos reconocibles — una melodía, un estilo vocal, una técnica de producción. Algunas plataformas han sido demandadas por sellos discográficos. El estatus legal está evolucionando: generar "música al estilo de" un artista puede ser legal (el estilo no tiene derechos de autor), pero generar algo que suene como una canción específica no lo es. La mayoría de servicios de música con IA comerciales implementan filtros para prevenir la generación de contenido demasiado similar a obras con derechos de autor conocidas.
Más allá de reemplazar músicos, la música con IA permite nuevos flujos de trabajo creativos: generar pistas demo que los productores luego refinan, crear bandas sonoras adaptativas de juegos que cambian según la jugabilidad, producir música personalizada (una canción de cuna con el nombre de tu hijo) y habilitar la producción musical para personas con ideas pero sin habilidades instrumentales. Las aplicaciones más interesantes tratan a la IA como un colaborador creativo en lugar de un reemplazo.