HeartMuLa : Modèles de génération musicale open‑source 2026

HeartMuLa est une famille de modèles fondamentaux de musique open‑source de pointe qui permettent à quiconque de générer, transcrire et traiter de la musique avec l'IA.


1. Qu'est‑ce que HeartMuLa?

  • HeartMuLa – un modèle de langage musical qui génère de la musique conditionnée par des paroles et des tags, supportant plusieurs langues (anglais, chinois, japonais, coréen, espagnol).
  • HeartCodec – un codec musical haute fidélité de 12,5 Hz pour une compression et reconstruction efficaces.
  • HeartTranscriptor – un transcripteur de paroles basé sur Whisper spécialement réglé pour la musique.
  • HeartCLAP – un modèle d'alignement audio‑texte qui crée un espace d'embedding partagé pour la récupération cross‑modal.

Ces modèles sont publiés sous licence Apache‑2.0, ce qui les rend libres d'utilisation, de modification et de distribution.


2. Fonctionnalités principales

Fonctionnalité Description
Multi‑GPU & Lazy Loading Fonctionner avec plusieurs GPU ou utiliser le chargement paresseux pour économiser de la mémoire sur un seul GPU.
Multilingual Conditionner la génération sur des paroles en chinois, japonais, coréen, espagnol ou anglais.
Fine‑grained Control Utiliser des tags (par ex. piano,happy,wedding) pour diriger style et instrumentation.
Pre‑trained Checkpoints Des modèles pour les variantes 3B et 7B sont disponibles sur Hugging Face et ModelScope.
Audio Codec Support Encoder et décoder l'audio efficacement avec HeartCodec.

3. Démarrage rapide

# Clone the repository
git clone https://github.com/HeartMuLa/heartlib.git
cd heartlib

# Install requirements
pip install -e .

# Download checkpoints (choose the 3B or 7B variant)
# Hugging Face example
hf download --local-dir './ckpt/HeartMuLa-oss-3B' 'HeartMuLa/HeartMuLa-oss-3B'
# Optional: 7B model (after release)
# hf download --local-dir './ckpt/HeartMuLa-oss-7B' 'HeartMuLa/HeartMuLa-oss-7B'

# Download the codec checkpoints
hf download --local-dir './ckpt/HeartCodec-oss' 'HeartMuLa/HeartCodec-oss'

# Run a simple generation demo
python ./examples/run_music_generation.py --model_path=./ckpt --version="3B"

Le script lira les fichiers assets/lyrics.txt et assets/tags.txt, générera un clip musical et l'enregistrera dans assets/output.mp3.


4. Personnaliser la génération

4.1 Fournir vos propres paroles et tags

  • Éditez assets/lyrics.txt.
  • Modifiez assets/tags.txt avec des tags séparés par des virgules (ex. piano,happy,wedding).
  • Relancez le script pour générer avec le nouveau contenu.

4.2 Multi‑GPU & Allocation des appareils

Si vous avez 2×RTX 4090, placez les paramètres du modèle sur des appareils séparés :

--mula_device cuda:0 --codec_device cuda:1

Sur un seul GPU, activez le chargement paresseux :

--lazy_load true

4.3 Hyperparamètres de l'échantillonnage

Paramètre Défaut Effet
topk 50 Contrôle la diversité
temperature 1.0 Contrôle le hasard
cfg_scale 1.5 Contrôle la fidélité versus créativité

N'hésitez pas à expérimenter pour obtenir le style désiré.


5. Utilisation avancée

  • Conditionnement audio de référence : Les futures versions prévoient d'accepter un aperçu audio pour affiner le rendu généré.
  • Fine‑tuning : Le dépôt inclut des scripts pour affiner le modèle sur des jeux de données personnalisés.
  • Accélération d'inférence : La sortie d'inférence et l'inférence en streaming seront bientôt disponibles ; attendez RTF ≈ 1.0.

6. Licence & Attribution

  • Tous les codes et poids de modèle sont licenciés sous Apache‑2.0.
  • Si vous utilisez les modèles dans un travail publié, veuillez citer ce qui suit :
@misc{yang2026heartmulafamilyopensourced,
  title={HeartMuLa: A Family of Open Sourced Music Foundation Models},
  author={Dongchao Yang and Yuxin Xie and Yuguo Yin and Zheyu Wang and Xiaoyu Yi and Gongxi Zhu and Xiaolong Weng and Zihan Xiong and Yingzhe Ma and Dading Cong and Jingliang Liu and Zihang Huang and Jinghan Ru and Rongjie Huang and Haoran Wan and Peixu Wang and Kuoxi Yu and Helin Wang and Liming Liang and Xianwei Zhuang and Yuanyuan Wang and Haohan Guo and Junjie Cao and Zeqian Ju and Songxiang Liu and Yuewen Cao and Heming Weng and Yuexian Zou},
  year={2026},
  eprint={2601.10547},
  archivePrefix={arXiv},
  primaryClass={cs.SD},
  url={https://arxiv.org/abs/2601.10547},
}

7. Communauté & Support

  • Rejoignez le Discord de HeartMuLa pour une aide rapide et des discussions.
  • Suivez le dépôt sur GitHub pour les mises à jour et les nouvelles versions.
  • Contributions et problèmes sont les bienvenus via des pull requests.

8. Conclusion

HeartMuLa apporte une génération musicale de niveau professionnel à la communauté open‑source. Avec un support robuste pour les paroles multilingues, la conditionnement par tags, des codecs audio haute‑fidélité et des options de déploiement flexibles, c'est un kit idéal pour les chercheurs, créateurs et développeurs désireux d'explorer la synthèse musicale alimentée par l'IA. Téléchargez le code, expérimentez les démonstrations et commencez à construire vos propres projets musicaux propulsés par l'IA dès aujourd'hui.

Original Article: Voir l’original

Partager cet article