Magenta RT:谷歌出品的实时AI音乐生成库

June 27, 2025

Magenta RT 助力激发无限创意:Google 开源 AI 音乐生成器

Google DeepMind 近日推出 Magenta RT,这是一个开创性的开源 Python 库,旨在彻底改变音乐家和开发者创作音乐的方式。它专为在本地设备上流式生成音乐音频而设计,将先进的 AI 驱动音频合成能力带到您的指尖,可作为 MusicFX DJ Mode 和 Lyria RealTime API 等强大系统的本地辅助工具。

什么是 Magenta RT?

本质上,Magenta RT 是一款功能强大且易于使用的实时音频生成工具。与传统音乐制作方法不同,该库专注于“即时”生成音乐,预示着未来互动音乐体验的方向。它支持音频的持续生成,非常适合现场表演、互动装置或动态内容创作。

它是如何工作的?

Magenta RT 的工作原理是基于有限的历史上下文信息,将音频生成为通常约 2 秒长的短小、易于处理的片段。为确保无缝的听觉体验,它巧妙地运用交叉淡入淡出技术,以消除这些生成片段之间的任何边界伪影。这种创新方法实现了流畅、连续的音乐创作,且不带任何明显的停顿。

该库集成了多个尖端 AI 模型以实现其功能:

  • MusicCoCa:用于风格融合 这项强大功能支持用户轻松融合各种文本和音频风格。MusicCoCa 作为文本和音频的联合嵌入模型,为 Magenta RT 提供了生成条件,使得创作者能够通过加权提示来结合不同流派的影响或声音特征。试想一下,将“重金属”与您喜爱的爵士乐旋律融合——MusicCoCa 让这一切成为可能。

  • SpectroStream:用于高保真音频分词 SpectroStream 是 Magenta RT 高质量输出的基石,它是一个离散音频编解码模型,能够处理 48kHz 立体声高保真音乐。通过使用语言模型对 SpectroStream 音频令牌进行建模,Magenta RT 确保生成的输出保持卓越的清晰度和丰富的细节。

开始使用 Magenta RT

Google DeepMind 让用户极其便捷地开始探索 Magenta RT:

  1. Colab 演示: 体验 Magenta RT 最快的方式是使用其官方 Colab 演示。这允许您在免费的 TPU 上实时运行该库,除了一个网页浏览器,无需进行任何本地配置。
  2. 本地安装: 对于喜欢在本地工作或需要特定硬件配置的用户,可以通过 pip 安装 Magenta RT,并支持 GPU 或 TPU。同时还提供仅限 CPU 的选项,使其在各种开发环境中都具有强大的灵活性。

无论您是 AI 研究人员、寻求开创性工具的音乐制作人,还是热衷于将 AI 集成到音频应用程序的开发者,Magenta RT 都将为您开辟一个引人入胜的全新创意表达途径。

开源且未来就绪

Magenta RT 以组合许可协议发布:代码库采用 Apache 2.0 许可,而模型权重则遵循知识共享署名 4.0 国际许可。这种开源方式鼓励社区贡献并促进创新。

作为一份“抢先体验”,Magenta RT 仍在不断发展,未来计划推出更多功能,包括技术报告、用于微调的 Colab 环境,以及基于实时音频输入的条件化。该项目体现了 Google DeepMind 致力于推动 AI 在创意领域发展的决心。

立即踏入实时 AI 音乐生成的世界吧。探索 GitHub 仓库,试用 Colab 演示,开始试验 Magenta RT,释放其全部潜力。

原创文章: 查看原文

分享本文