Music generation मॉडल दो मुख्य दृष्टिकोणों का उपयोग करते हैं: audio-native मॉडल (diffusion मॉडल या autoregressive Transformers के समान architectures का उपयोग करके raw audio waveforms generate करते हैं) और MIDI-आधारित मॉडल (symbolic music notation generate करते हैं जो फिर synthesizers के साथ render किया जाता है)। Audio-native मॉडल (Suno, MusicGen) अधिक यथार्थवादी परिणाम उत्पन्न करते हैं लेकिन computationally महंगे हैं। MIDI दृष्टिकोण अधिक controllable लेकिन कम natural-sounding हैं।
Music AI तीव्र copyright प्रश्न उठाता है। Copyrighted संगीत पर प्रशिक्षित मॉडल पहचानने योग्य तत्वों को reproduce कर सकते हैं — एक melody, एक vocal style, एक production technique। कुछ platforms पर record labels ने मुकदमा किया है। कानूनी स्थिति विकसित हो रही है: "एक कलाकार की शैली में" संगीत generate करना कानूनी हो सकता है (style copyrightable नहीं है), लेकिन किसी विशिष्ट गाने जैसा कुछ generate करना नहीं है। अधिकांश व्यावसायिक music AI सेवाएँ ज्ञात copyrighted कार्यों से बहुत मिलती-जुलती सामग्री generate करने से रोकने के लिए filters लागू करती हैं।
संगीतकारों को बदलने से परे, AI music नए रचनात्मक workflows को सक्षम बनाता है: demo tracks generate करना जिन्हें producers फिर refine करते हैं, adaptive game soundtracks बनाना जो gameplay के आधार पर बदलते हैं, personalized संगीत उत्पन्न करना (आपके बच्चे के नाम के साथ एक लोरी), और बिना वाद्य कौशल वाले लोगों के लिए संगीत production को सक्षम बनाना। सबसे दिलचस्प applications AI को replacement के बजाय एक रचनात्मक collaborator के रूप में मानते हैं।