HeartMuLa: オープンソース音楽生成モデル 2026

HeartMuLaは、誰でもAIで音楽を生成・転写・処理できる最先端のオープンソース音楽基盤モデルのファミリーです。


1. HeartMuLaとは?

  • HeartMuLa – 歌詞とタグに条件付けて音楽を生成する音楽言語モデルで、英語、中国語、日本語、韓国語、スペイン語に対応しています。
  • HeartCodec – 効率的な圧縮と再構築を可能にする12.5 Hzの高忠実度音楽コーデック。
  • HeartTranscriptor – 音楽専用にチューニングされたWhisperベースの歌詞トランスクリプト。
  • HeartCLAP – 音声とテキストを整合させるモデルで、クロスモーダル検索用の共有埋め込み空間を構築します。

これらのモデルはApache‑2.0ライセンスの下でリリースされ、無料で利用・改変・配布できます。


2. コア機能

Feature Description
Multi‑GPU & Lazy Loading 複数GPUで実行するか、レイジーローディングで単一GPUのメモリを節約します。
Multilingual 中国語・日本語・韓国語・スペイン語・英語の歌詞で条件付け生成が可能です。
Fine‑grained Control タグ(例:piano,happy,wedding)を使用してスタイルと楽器を調整します。
Pre‑trained Checkpoints 3Bと7BのバージョンのモデルをHugging FaceとModelScopeで入手できます。
Audio Codec Support HeartCodecで音声を効率的にエンコード・デコードします。

3. すぐに始める

# リポジトリをクローン
git clone https://github.com/HeartMuLa/heartlib.git
cd heartlib

# 要件をインストール
pip install -e .

# チェックポイントをダウンロード(3Bまたは7Bを選択)
# Hugging Faceの例
hf download --local-dir './ckpt/HeartMuLa-oss-3B' 'HeartMuLa/HeartMuLa-oss-3B'
# 7Bモデル(リリース後は可)
# hf download --local-dir './ckpt/HeartMuLa-oss-7B' 'HeartMuLa/HeartMuLa-oss-7B'

# コーデックチェックポイントをダウンロード
hf download --local-dir './ckpt/HeartCodec-oss' 'HeartMuLa/HeartCodec-oss'

# シンプルな生成デモを実行
python ./examples/run_music_generation.py --model_path=./ckpt --version="3B"

スクリプトはassets/lyrics.txtassets/tags.txtを読み込み、音楽クリップを生成し、assets/output.mp3に保存します。


4. 生成のカスタマイズ

4.1 自分の歌詞とタグを入れる

  • assets/lyrics.txt を編集。
  • assets/tags.txt をカンマ区切りのタグ(例:piano,happy,wedding)で編集。
  • スクリプトを再実行して新しい内容で生成。

4.2 マルチGPUとデバイス割り当て

2台のRTX 4090がある場合、モデルパラメータを別々のデバイスに置くことができます:

--mula_device cuda:0 --codec_device cuda:1

単一GPUの場合はレイジーローディングを有効にします:

--lazy_load true

4.3 サンプリングハイパーパラメータ

Parameter Default Effect
topk 50 多様性制御
temperature 1.0 ランダム性制御
cfg_scale 1.5 忠実度と創造性のバランス

望むスタイルが得られるよう、気軽に実験してみてください。


5. 高度な使い方

  • 参照音声条件付け:将来のリリースでは、音声プレビューを受け取り生成出力を洗練させる予定です。
  • ファインチューニング:カスタムデータセットでファインチューニングできるスクリプトが含まれています。
  • 推論加速:推論スクリプトとストリーミング推論が近日公開予定。RTF≈1.0を期待してください。

6. ライセンスとクレジット

  • すべてのコードとモデル重みはApache‑2.0ライセンス。
  • 公開作品でモデルを使用する場合は、以下を引用してください:
@misc{yang2026heartmulafamilyopensourced,
  title={HeartMuLa: A Family of Open Sourced Music Foundation Models},
  author={Dongchao Yang and Yuxin Xie and Yuguo Yin and Zheyu Wang and Xiaoyu Yi and Gongxi Zhu and Xiaolong Weng and Zihan Xiong and Yingzhe Ma and Dading Cong and Jingliang Liu and Zihang Huang and Jinghan Ru and Rongjie Huang and Haoran Wan and Peixu Wang and Kuoxi Yu and Helin Wang and Liming Liang and Xianwei Zhuang and Yuanyuan Wang and Haohan Guo and Junjie Cao and Zeqian Ju and Songxiang Liu and Yuewen Cao and Heming Weng and Yuexian Zou},
  year={2026},
  eprint={2601.10547},
  archivePrefix={arXiv},
  primaryClass={cs.SD},
  url={https://arxiv.org/abs/2601.10547},
}

7. コミュニティとサポート

  • 迅速なヘルプとディスカッションのため、HeartMuLa Discordに参加。
  • GitHubでリポジトリをフォローし、アップデートと新リリースを確認。
  • PRでの貢献とイシューは歓迎です。

8. 結論

HeartMuLaは、オープンソースコミュニティにプロフェッショナル品質の音楽生成をもたらします。多言語歌詞の堅牢なサポート、タグベースのスタイル条件付け、高忠実度音声コーデック、柔軟なデプロイオプションにより、研究者、クリエイター、開発者がAI駆動音楽合成を探求する理想的なツールキットです。コードをダウンロードし、デモを試し、AI搭載の音楽プロジェクトを今日から構築しましょう。

この記事を共有