HeartMuLa: Modelos de Generación Musical de Código Abierto 2026

HeartMuLa es una familia de modelos de fundamentos musicales de última generación y código abierto que permiten a cualquiera generar, transcribir y procesar música con IA.


1. ¿Qué es HeartMuLa?

  • HeartMuLa – un modelo de lenguaje musical que genera música condicionada por letras y etiquetas, soportando múltiples idiomas (inglés, chino, japonés, coreano, español).
  • HeartCodec – un códec de música de alta fidelidad de 12,5 Hz para compresión y reconstrucción eficientes.
  • HeartTranscriptor – un transcripto de letras basado en Whisper, afinado específicamente para música.
  • HeartCLAP – un modelo de alineación audio‑texto que crea un espacio de incrustación compartido para recuperación cross‑modal.

Estos modelos se publican bajo la licencia Apache-2.0, lo que los hace libres de usar, modificar y distribuir.


2. Características principales

Característica Descripción
Multi‑GPU y carga diferida Ejecuta con múltiples GPU o utiliza carga diferida para ahorrar memoria en una sola GPU.
Multilingüe Condiciona la generación con letras en chino, japonés, coreano, español o inglés.
Control fino Utiliza etiquetas (ej., piano,happy,wedding) para dirigir estilo e instrumentación.
Puntos de control pre‑entrenados Los modelos para variantes de 3B y 7B están disponibles en Hugging Face y ModelScope.
Soporte de códec de audio Codifica y decodifica audio de manera eficiente con HeartCodec.

3. Inicio rápido

# Clonar el repositorio
git clone https://github.com/HeartMuLa/heartlib.git
cd heartlib

# Instalar dependencias
pip install -e .

# Descargar checkpoints (elige la variante 3B o 7B)
# Ejemplo Hugging Face
hf download --local-dir './ckpt/HeartMuLa-oss-3B' 'HeartMuLa/HeartMuLa-oss-3B'
# Opcional: modelo 7B (después de su lanzamiento)
# hf download --local-dir './ckpt/HeartMuLa-oss-7B' 'HeartMuLa/HeartMuLa-oss-7B'

# Descargar los checkpoints del códec
hf download --local-dir './ckpt/HeartCodec-oss' 'HeartMuLa/HeartCodec-oss'

# Ejecutar una demo sencilla de generación
python ./examples/run_music_generation.py --model_path=./ckpt --version=\"3B\"

El script leerá assets/lyrics.txt y assets/tags.txt, generará un fragmento musical y lo guardará en assets/output.mp3.


4. Personalizando la generación

4.1 Proporciona tus propias letras y etiquetas

  • Edita assets/lyrics.txt.
  • Edita assets/tags.txt con etiquetas separadas por coma (piano,happy,wedding).
  • Vuelve a ejecutar el script para generar con el nuevo contenido.

4.2 Multi‑GPU y asignación de dispositivos

Si tienes 2×RTX 4090, coloca los parámetros del modelo en dispositivos separados:

--mula_device cuda:0 --codec_device cuda:1

En una única GPU, habilita la carga diferida:

--lazy_load true

4.3 Hiperparámetros de muestreo

Parámetro Predeterminado Efecto
topk 50 Controla la diversidad
temperature 1.0 Controla la aleatoriedad
cfg_scale 1.5 Controla la fidelidad frente a la creatividad

Siéntete libre de experimentar para obtener el estilo que desees.


5. Uso avanzado

  • Condicionamiento de audio de referencia: las próximas versiones planean aceptar una vista previa de audio para refinar la salida generada.
  • Fine‑Tuning: el repositorio incluye scripts para ajustarlo en datasets personalizados.
  • Aceleración de inferencia: se lanzarán scripts de inferencia y la inferencia en streaming próximamente; se espera RTF ≈ 1.0.

6. Licencia y atribución

  • Todo el código y los pesos del modelo están licenciados bajo Apache-2.0.
  • Si usas los modelos en un trabajo publicado, cita lo siguiente:
@misc{yang2026heartmulafamilyopensourced,
  title={HeartMuLa: A Family of Open Sourced Music Foundation Models},
  author={Dongchao Yang and Yuxin Xie and Yuguo Yin and Zheyu Wang and Xiaoyu Yi and Gongxi Zhu and Xiaolong Weng and Zihan Xiong and Yingzhe Ma and Dading Cong and Jingliang Liu and Zihang Huang and Jinghan Ru and Rongjie Huang and Haoran Wan and Peixu Wang and Kuoxi Yu and Helin Wang and Liming Liang and Xianwei Zhuang and Yuanyuan Wang and Haohan Guo and Junjie Cao and Zeqian Ju and Songxiang Liu and Yuewen Cao and Heming Weng and Yuexian Zou},
  year={2026},
  eprint={2601.10547},
  archivePrefix={arXiv},
  primaryClass={cs.SD},
  url={https://arxiv.org/abs/2601.10547},
}

7. Comunidad y soporte

  • Únete al Discord de HeartMuLa para ayuda rápida y discusión.
  • Sigue el repositorio en GitHub para actualizaciones y nuevas versiones.
  • Las contribuciones y problemas son bienvenidos mediante pull requests.

8. Conclusión

HeartMuLa lleva la generación musical de grado profesional a la comunidad de código abierto. Con soporte robusto para letras multilingües, condicionamiento de estilo basado en etiquetas, códecs de audio de alta fidelidad y opciones de despliegue flexibles, es una herramienta ideal para investigadores, creadores y desarrolladores que deseen explorar la síntesis musical impulsada por IA. Descarga el código, experimenta con las demos y comienza a construir tus propios proyectos musicales potenciados por IA hoy mismo.

Artículo original: Ver original

Compartir este artículo