HeartMuLa : Modèles de génération musicale open‑source 2026

January 25, 2026

Catégorie: Projets Open Source Pratiques

Étiquettes:

Open Source AI Models Music Generation Python Library HeartMuLa

HeartMuLa est une famille de modèles fondamentaux de musique open‑source de pointe qui permettent à quiconque de générer, transcrire et traiter de la musique avec l'IA.

1. Qu'est‑ce que HeartMuLa?

HeartMuLa – un modèle de langage musical qui génère de la musique conditionnée par des paroles et des tags, supportant plusieurs langues (anglais, chinois, japonais, coréen, espagnol).
HeartCodec – un codec musical haute fidélité de 12,5 Hz pour une compression et reconstruction efficaces.
HeartTranscriptor – un transcripteur de paroles basé sur Whisper spécialement réglé pour la musique.
HeartCLAP – un modèle d'alignement audio‑texte qui crée un espace d'embedding partagé pour la récupération cross‑modal.

Ces modèles sont publiés sous licence Apache‑2.0, ce qui les rend libres d'utilisation, de modification et de distribution.

2. Fonctionnalités principales

Fonctionnalité	Description
Multi‑GPU & Lazy Loading	Fonctionner avec plusieurs GPU ou utiliser le chargement paresseux pour économiser de la mémoire sur un seul GPU.
Multilingual	Conditionner la génération sur des paroles en chinois, japonais, coréen, espagnol ou anglais.
Fine‑grained Control	Utiliser des tags (par ex. `piano,happy,wedding`) pour diriger style et instrumentation.
Pre‑trained Checkpoints	Des modèles pour les variantes 3B et 7B sont disponibles sur Hugging Face et ModelScope.
Audio Codec Support	Encoder et décoder l'audio efficacement avec `HeartCodec`.

3. Démarrage rapide

# Clone the repository
git clone https://github.com/HeartMuLa/heartlib.git
cd heartlib

# Install requirements
pip install -e .

# Download checkpoints (choose the 3B or 7B variant)
# Hugging Face example
hf download --local-dir './ckpt/HeartMuLa-oss-3B' 'HeartMuLa/HeartMuLa-oss-3B'
# Optional: 7B model (after release)
# hf download --local-dir './ckpt/HeartMuLa-oss-7B' 'HeartMuLa/HeartMuLa-oss-7B'

# Download the codec checkpoints
hf download --local-dir './ckpt/HeartCodec-oss' 'HeartMuLa/HeartCodec-oss'

# Run a simple generation demo
python ./examples/run_music_generation.py --model_path=./ckpt --version="3B"

Le script lira les fichiers assets/lyrics.txt et assets/tags.txt, générera un clip musical et l'enregistrera dans assets/output.mp3.

4. Personnaliser la génération

4.1 Fournir vos propres paroles et tags

Éditez assets/lyrics.txt.
Modifiez assets/tags.txt avec des tags séparés par des virgules (ex. piano,happy,wedding).
Relancez le script pour générer avec le nouveau contenu.

4.2 Multi‑GPU & Allocation des appareils

Si vous avez 2×RTX 4090, placez les paramètres du modèle sur des appareils séparés :

--mula_device cuda:0 --codec_device cuda:1

Sur un seul GPU, activez le chargement paresseux :

--lazy_load true

4.3 Hyperparamètres de l'échantillonnage

Paramètre	Défaut	Effet
`topk`	50	Contrôle la diversité
`temperature`	1.0	Contrôle le hasard
`cfg_scale`	1.5	Contrôle la fidélité versus créativité

N'hésitez pas à expérimenter pour obtenir le style désiré.

5. Utilisation avancée

Conditionnement audio de référence : Les futures versions prévoient d'accepter un aperçu audio pour affiner le rendu généré.
Fine‑tuning : Le dépôt inclut des scripts pour affiner le modèle sur des jeux de données personnalisés.
Accélération d'inférence : La sortie d'inférence et l'inférence en streaming seront bientôt disponibles ; attendez RTF ≈ 1.0.

6. Licence & Attribution

Tous les codes et poids de modèle sont licenciés sous Apache‑2.0.
Si vous utilisez les modèles dans un travail publié, veuillez citer ce qui suit :

@misc{yang2026heartmulafamilyopensourced,
  title={HeartMuLa: A Family of Open Sourced Music Foundation Models},
  author={Dongchao Yang and Yuxin Xie and Yuguo Yin and Zheyu Wang and Xiaoyu Yi and Gongxi Zhu and Xiaolong Weng and Zihan Xiong and Yingzhe Ma and Dading Cong and Jingliang Liu and Zihang Huang and Jinghan Ru and Rongjie Huang and Haoran Wan and Peixu Wang and Kuoxi Yu and Helin Wang and Liming Liang and Xianwei Zhuang and Yuanyuan Wang and Haohan Guo and Junjie Cao and Zeqian Ju and Songxiang Liu and Yuewen Cao and Heming Weng and Yuexian Zou},
  year={2026},
  eprint={2601.10547},
  archivePrefix={arXiv},
  primaryClass={cs.SD},
  url={https://arxiv.org/abs/2601.10547},
}

7. Communauté & Support

Rejoignez le Discord de HeartMuLa pour une aide rapide et des discussions.
Suivez le dépôt sur GitHub pour les mises à jour et les nouvelles versions.
Contributions et problèmes sont les bienvenus via des pull requests.

HeartMuLa apporte une génération musicale de niveau professionnel à la communauté open‑source. Avec un support robuste pour les paroles multilingues, la conditionnement par tags, des codecs audio haute‑fidélité et des options de déploiement flexibles, c'est un kit idéal pour les chercheurs, créateurs et développeurs désireux d'explorer la synthèse musicale alimentée par l'IA. Téléchargez le code, expérimentez les démonstrations et commencez à construire vos propres projets musicaux propulsés par l'IA dès aujourd'hui.

Original Article: Voir l’original