Google 做了一个输入描述文字就可以自动生成歌曲的 AI

Google做了一个叫做MusicLM的AI系统，可以让你通过输入几个描述性的文字就自动生成歌曲。不过考虑到各种风险，目前暂时不会让公众使用这套AI系统。

MusicLM当然不是第一个尝试用AI来作曲的系统了，在此之前有人曾经开发过可以通过输入各种图片来生成歌曲的Riffusion，还有Dance Diffusion、Google开发的AudioML以及OpenAI开发的Jukebox，但这些技术或多或少都有一些局限性，无法制作出高质量的音乐。

但这次的MusicLM也许就大不同了。

根据论文的描述，MusicLM已经被投喂了超过28万小时的音乐来学习如何生成由相关性的歌曲，其创造者将其描述为「有着显著的复杂性」，比如你可以输入「令人难忘的萨克斯管独奏和独唱的迷人爵士歌曲」或「具有超低音和强劲底鼓的柏林90年代电子乐」来生成音乐。而它生成的音乐听起来尽管不一定具有创造性或非常耐听，但明显的像是人类艺术家的作曲。

演示曲：

比如下面这首MusicLM生成的歌曲，所输入的描述词是：

包含迷失在太空的感觉：demo试听

再听一个例子，所输入的描述词是：

街机游戏的主要配乐：demo试听

MusicLM其实不仅可以生成音乐片段。Google的研究者还表示该系统可以建立在已有旋律的基础上进行创作，无论是哼唱、演唱、吹口哨还是乐器演奏。更厉害的是，MusicLM可以支持多个描述词，比如你可以同时写下「冥想时间」、「起床时间」、「跑步时间」和「全力以赴时间」，这样就可以创造出一段旋律组成的故事，或是长达好几分钟的叙事，这样就可以完美的符合一段影视音乐的创作。

下面这个例子就展示了这一点，所输入的描述词是：

在游戏机里播放的电子音乐、在河边播放的冥想音乐、火、烟花：demo试听

听完上面三个demo，我似乎已经看到以后独立游戏、独立电影都会尝试用AI创作音乐而不再找音乐人创作的一幕了。贴片音乐、罐头音乐、简单的广告音乐之类的创作者可能就不需要了。

这还没完。MusicLM还可以通过一组图片和字幕来作曲，或者是生成一段以某种乐器按照某种风格演奏的音乐。甚至是AI音乐家生成音乐的级别也可以设置，系统也可以根据地点、时代或要求来创作音乐（例如锻炼的励志音乐）。

MusicLM的问题：

但MusicLM不是完美无缺的，它还差得远。有些演示的音频音质很差都失真了，还有一下就能听出来的明显不正常的训练过程中的效果。尽管MusicLM理论上可以生成人声，包括和声，但效果也差得远，就好像生硬缝合了好几位歌手的声线。而且大部分的歌词基本都是驴唇不对马嘴。

另外，Google的研究人员还注意到MusicLM这样的系统带来了许多道德上的挑战，包括将训练数据中有很多受版权保护的材料被越来越多的整合到生成的歌曲中的趋势。大概系统生成的百分之一的音乐都是直接从被训练的数据里拿过来的，所以现在它们也不太敢直接像公众开放MusicLM的使用。

如果Google之后解决了这样的问题，向公众开放MusicLM，它也会面对很多法律问题，即便这个系统定位是帮助艺术家创作而不是取而代之。其实在2020年的时候，Jay-Z的长篇公司就向YouTube发去了律师函，因为Vocal Synthesis利用AI创造出了用Jay-Z的声音去翻唱Billy Joel的《We Didn’t Start the Fire》。在最初删除掉视频之后，YouTube又恢复了这些视频，理由是Jay-Z唱片公司的请求不完全合理。不过这已经是AI假翻唱音乐带来的最初级的法律问题而已。

Music Publishers Association的法律实习生Eric Sunray就说现在类似MusicLM这种AI都违反了音乐的版权，因为它们在训练中摄取的作品中提取连贯的音频，从而侵犯了美国版权法的复制权。同样的法律问题也在利用版权作品生成图片、代码、文字的领域。

但是Waxy的Andy Baio却说从用户角度来说，AI生成的音乐只能理解成为一种衍生品，只有原始的元素才是被保护的对象。当然这种生成的音乐有多少原创性还不清楚，将这种音乐用于商业用途更是进入了我们所未知的领域。

在这个AI利用现有作品进行学习，然后创作的节点来说，一切都是未知的。但这个大趋势已经在绘画和视频创作领域发生了，音乐创作也很可能即将迎来类似的大冲击。

音乐人咋办？

那么音乐人如何避免，或者说对这样的冲击做准备呢？也许AI在未来几年里就会在某些条件下超越人类创作者（花更少的时间得到还可以的音乐，或者花更少的钱快速得到还可以的音乐）。我觉得现在的音乐人和创作者除了要提升自己，让自己的能力至少要在AI平均水平之上以外，可以考虑向现场演出方面转型，至少我认为在几十年内，人类不会有兴趣看纯机器人现场演奏音乐，或者说机器人演奏乐器的水平无法跟人类抗衡。

无论如何，作为音乐人和音乐行业的从业者，现在是时候问自己一句：「我现在所做的事情是否会在3-5年后被AI替代」了。狼已经来了，而且狼也不会回去了。

第 233 期电子杂志

叮咚音频正式代理美国高端私模耳机品牌 64 Audio，专业与 Hi-Fi 兼备的顶级入耳式耳机

Ableton 发布 Live 12.3 并下调中国区售价，Live Intro 和 Standard 开启限时特惠

直到现在依旧是最好的 AI 歌声合成器：Synthesizer V Studio 2 Pro 更新评测

从录音室到日常聆听：索尼 MDR-M1 如何成为创作者与发烧友的跨界首选？

《Midifan 月刊》电子杂志 2025 年 8 月号发布，点击在线阅读