音乐生成：定义与含义 — AI 维基

使用AI模型从文本描述、旋律或其他音频输入创作音乐。“一首带有朗朗上口的合成器旋律、120 BPM的欢快电子曲目”产出一首完整的音乐作品。Suno、Udio、MusicLM（Google）和Stable Audio是领先的模型。当前系统能以多样的风格和流派生成人声、器乐和完整编曲。

为什么重要

音乐生成是图像生成的音频对应物——它让每个人都能创作音乐，而不仅仅是受过训练的音乐家。内容创作者需要背景音乐，游戏开发者需要配乐，广告商需要广告曲。AI音乐以极低的成本和时间满足这些需求。但它也引发了与图像生成相同的版权和真实性问题。

深度解析

音乐生成模型使用两种主要方法：音频原生模型（使用类似于扩散模型或自回归Transformer的架构生成原始音频波形）和基于MIDI的模型（生成符号音乐记谱，然后用合成器渲染）。音频原生模型（Suno、MusicGen）产出更逼真的结果但计算成本高。MIDI方法更可控但声音不够自然。

版权雷区

音乐AI引发了激烈的版权问题。在受版权保护的音乐上训练的模型可能再现可辨识的元素——旋律、声乐风格、制作技术。一些平台已被唱片公司起诉。法律状态在演变中：生成“某艺术家风格的”音乐可能是合法的（风格不受版权保护），但生成听起来像特定歌曲的内容则不合法。大多数商业音乐AI服务实施过滤器，防止生成与已知受版权保护作品过于相似的内容。

创意应用

除了替代音乐家，AI音乐还实现了新的创作工作流：生成制作人随后细化的演示曲目、创建根据游戏玩法变化的自适应游戏配乐、制作个性化音乐（一首带有你孩子名字的摇篮曲），以及让有想法但没有乐器技能的人也能进行音乐制作。最有趣的应用将AI视为创作合作者而非替代品。