HeartMuLa:开源音乐生成模型 2026

HeartMuLa 是一系列尖端的开源音乐基础模型,能够让任何人使用 AI 生成、转录和处理音乐。


1. HeartMuLa 是什么?

  • HeartMuLa – 一种音乐语言模型,可根据歌词和标签生成音乐,支持多种语言(英文、中文、日文、韩文、西班牙文)。
  • HeartCodec – 高品质 12.5 Hz 音乐编解码器,支持高效压缩和重建。
  • HeartTranscriptor – 基于 Whisper 的歌词转录器,专门针对音乐进行调优。
  • HeartCLAP – 音频-文本对齐模型,构建共享嵌入空间以实现跨模态检索。

这些模型以 Apache-2.0 协议发布,可免费使用、修改和分发。


2. 核心特性

Feature Description
Multi‑GPU 与 延迟加载 在多 GPU 上运行,或在单 GPU 上使用延迟加载以节省内存。
多语言 依据中文、日文、韩文、西班牙文或英文歌词进行条件生成。
细粒度控制 使用标签(例如 piano,happy,wedding)来指引风格和配器。
预训练检查点 3B 与 7B 版本的模型可在 Hugging Face 与 ModelScope 获取。
音频编解码支持 使用 HeartCodec 高效编码与解码音频。

3. 快速开始

# 克隆仓库
git clone https://github.com/HeartMuLa/heartlib.git
cd heartlib

# 安装依赖
pip install -e .

# 下载检查点(选择 3B 或 7B 版本)
# Hugging Face 示例
hf download --local-dir './ckpt/HeartMuLa-oss-3B' 'HeartMuLa/HeartMuLa-oss-3B'
# 可选:7B 模型(发布后)
# hf download --local-dir './ckpt/HeartMuLa-oss-7B' 'HeartMuLa/HeartMuLa-oss-7B'

# 下载编解码检查点
hf download --local-dir './ckpt/HeartCodec-oss' 'HeartMuLa/HeartCodec-oss'

# 运行简单的生成演示
python ./examples/run_music_generation.py --model_path=./ckpt --version="3B"

脚本将读取 assets/lyrics.txtassets/tags.txt,生成音乐片段并保存到 assets/output.mp3


4. 定制生成

4.1 提供你自己的歌词和标签

  • 编辑 assets/lyrics.txt
  • 编辑 assets/tags.txt,以逗号分隔标签(如 piano,happy,wedding)。
  • 重新运行脚本以使用新的内容生成音乐。

4.2 多 GPU 与设备分配

如果你拥有 2×RTX 4090,建议将模型参数分配到不同设备:

--mula_device cuda:0 --codec_device cuda:1

在单 GPU 上,开启延迟加载:

--lazy_load true

4.3 抽样超参

Parameter Default Effect
topk 50 控制多样性
temperature 1.0 控制随机性
cfg_scale 1.5 控制保真度与创造性

请随意实验以获得理想的风格。


5. 高级使用

  • 参考音频条件化:未来版本计划接受音频预览以细化生成结果。
  • 微调:仓库包含针对自定义数据集微调的脚本。
  • 推理加速:即将发布推理脚本和流式推理,预计 RTF≈1.0。

6. 许可与署名

  • 所有代码与模型权重均采用 Apache‑2.0 许可证。
  • 如果您在已发表的工作中使用了这些模型,请引用以下内容:
@misc{yang2026heartmulafamilyopensourced,
  title={HeartMuLa: A Family of Open Sourced Music Foundation Models},
  author={Dongchao Yang and Yuxin Xie and Yuguo Yin and Zheyu Wang and Xiaoyu Yi and Gongxi Zhu and Xiaolong Weng and Zihan Xiong and Yingzhe Ma and Dading Cong and Jingliang Liu and Zihang Huang and Jinghan Ru and Rongjie Huang and Haoran Wan and Peixu Wang and Kuoxi Yu and Helin Wang and Liming Liang and Xianwei Zhuang and Yuanyuan Wang and Haohan Guo and Junjie Cao and Zeqian Ju and Songxiang Liu and Yuewen Cao and Heming Weng and Yuexian Zou},
  year={2026},
  eprint={2601.10547},
  archivePrefix={arXiv},
  primaryClass={cs.SD},
  url={https://arxiv.org/abs/2601.10547},
}

7. 社区与支持

  • 加入 HeartMuLa Discord,快速获得帮助与讨论。
  • 在 GitHub 上关注仓库,获取更新与新版本。
  • 欢迎通过拉取请求提交贡献与问题。

8. 结论

HeartMuLa 将专业级音乐生成带入开源社区。凭借对多语言歌词、基于标签的风格条件化、高保真音频编解码器以及灵活部署选项的强大支持,它是研究者、创作者和开发者探索 AI 驱动音乐合成的理想工具包。下载代码,尝试演示,并立即开始构建自己的 AI 音乐项目。

原创文章: 查看原文

分享本文