ACE‑Step 1.5 : Modèle musical open‑source qui surpasse les solutions commerciales

February 05, 2026

Catégorie: Projets Open Source Pratiques

Étiquettes:

Open Source AI Models Music Generation LoRA GPU

ACE-Step 1.5 – Le modèle de génération musicale open‑source qui bat les alternatives commerciales

Qu'est‑ce que ACE‑Step 1.5 ?

ACE‑Step est un modèle fondamental de musique modulaire à architecture hybride publié sous licence MIT. Il combine un Modèle de Langage (LM) — utilisé comme planificateur omnipotent — pour transformer des invites simples en plans de chansons, avec un Diffusion Transformer (DiT) qui génère l'audio brut. Le LM fournit les paroles, la structure, les jetons de style et le texte guidant, et même effectue un raisonnement en chaîne pour garder la musique alignée sur l'intention de l'utilisateur.

Le résultat ? Un rendu de qualité commerciale (souvent surpassant Suno v4.5, proche de Suno v5) tout en restant léger : moins de 4 GB VRAM suffit pour générer une piste complète de 5 minutes en moins de 10 s sur un RTX 3090 ou même ~2 s sur un A100. Une version pure CPU est également possible, mais plus lente.

Points forts principaux

Génération rapide – 2 s par son sur A100, 10 s sur RTX 3090.
Paroles de haute qualité, multilingues – Prend en charge plus de 50 langues pour les entrées de texte.
Contrôle de style riche – Plus de 1 000 instruments et descripteurs de timbre fins.
Montage en temps réel – Génération de covers, retouches, vocal‑to‑BGM, séparation de pistes, superposition multitrack, etc.
Personnalisation légère – Affinez un LoRA avec seulement quelques chansons (≈8 chansons, 1 h sur 3090). Fonctionne avec 12–16 GB VRAM.
Modèles variés – DiT et LM variantes (0.6 B / 1.7 B / 4 B), turbo, shift, continuous, SFT, etc.
Déploiement simple – UI Gradio, REST API, commandes uv en une ligne, bundle portable Windows.

Démarrage rapide

1. Clonez le dépôt

git clone https://github.com/ace-step/ACE-Step-1.5.git
cd ACE-Step-1.5

Si vous préférez Python directement, assurez‑vous d'avoir Python 3.11 et uv (le gestionnaire de paquets Python moderne). Le bundle Windows contient python_embeded pour un lancement rapide.

2. Installez les dépendances

uv sync

Pour le package portable Windows, double‑cliquez simplement sur start_gradio_ui.bat pour l'installation automatique.

Astuce – Sous Linux / macOS vous devrez peut‑être installer uv d’abord :
curl -LsSf https://astral.sh/uv/install.sh | sh
Puis lancez uv sync.

3. Téléchargez les points de contrôle du modèle

Les modèles se téléchargent automatiquement la première fois que vous lancez l’UI ou l’API. Si vous voulez pré‑télécharger :

uv run acestep-download --all

Cela récupère tout : DiT, LM (1.7 B et 0.6 B), VAE, embed, etc. Les variantes optionnelles comme acestep-v15-turbo-shift3 sont également disponibles.

4. Lancez l’UI Gradio

uv run acestep

ou, depuis le bundle Windows :

start start_gradio_ui.bat

Ouvrez http://localhost:7860 dans votre navigateur. L’UI est multilingue ; choisissez votre langue au démarrage.

5. Lancez l’API REST (optionnel)

uv run acestep-api

Cela démarre un serveur à http://localhost:8001. Utilisez curl ou Postman pour appeler /v1/generate.

6. Commandes rapides (toutes plateformes)

Fonction	Commande
Gradio	`uv run acestep --serve-name 0.0.0.0 --share`
API (avec clé)	`uv run acestep-api --api-key secret123`
Pré‑initialisation du LM	`uv run acestep --init_service true --lm_model_path acestep-5Hz-lm-1.7B`
Utiliser une source de téléchargement ModelScope	`uv run acestep --download-source modelscope`

Pour les utilisateurs Windows script‑based, éditez start_gradio_ui.bat ou start_api_server.bat pour ajuster LANGUAGE, DOWNLOAD_SOURCE ou CONFIG_PATH.

Personnaliser ACE‑Step

1. Sélectionner le bon LM/DiT

VRAM GPU	LM recommandé	Remarques
≤ 6 GB	Aucun (DiT uniquement)	Basculer vers le CPU par défaut
6–12 GB	`acestep-5Hz-lm-0.6B`	Léger, bonne qualité
12–16 GB	`acestep-5Hz-lm-1.7B`	Meilleure compréhension audio
≥ 16 GB	`acestep-5Hz-lm-4B`	Précision maximale

Définissez le chemin du LM dans l’UI ou via --lm_model_path.

2. Entraînement LoRA

Préparez les données – 8–12 courtes chansons au format WAV/MP3.
Lancez l’UI LoRA – Gradio dispose d’un onglet « LoRA ».
Configurez – Choisissez le dossier du jeu de données, fixez le taux d’apprentissage, les époques.
Entraînez – Cliquez sur « Train Now ». L’entraînement sur 3090 prend ~ 1 h.
Sauvegardez – Le fichier .pt résultant peut être rechargé dans ACE‑Step pour l’inférence.

3. Montage avancé

Retouche & édition – Sélectionnez un segment et cliquez sur « Edit » ; le modèle régénère cette tranche.
Génération de cover – Téléchargez un fichier audio, choisissez un style cible, puis générez.
Séparation de pistes – Séparez en stems (voix, batterie, basse, etc.) en utilisant les fonctions intégrées.
Vocal‑to‑BGM – Utilisez la piste vocale comme conditionnement pour produire un accompagnement.

FAQ & dépannage

Problème	Solution
“Erreur CUDA : mémoire insuffisante”	Réduisez `--max_length` ou passez à la variante LM 0.6 B.
Les modèles ne téléchargent pas	Assurez‑vous que `uv` est dans le PATH et que votre internet n’est pas bloqué. Essayez `--download-source huggingface`.
L’UI Gradio ne charge pas	Vérifiez si le port 7860 est libre ; essayez `--port 7861`.
L’API renvoie 401	Fournissez la bonne `--api-key` dans la commande ou définissez‑la dans le fichier `.env`.
Portable Windows ne fonctionne pas	Vérifiez que `python_embeded\requirements.txt` est présent et exécutez `uv install`.

Pourquoi ACE‑Step compte

Pas de cloud requis – Vous conservez toute la chaîne localement, préservant la confidentialité et éliminant les coûts de bande passante.
Transparence open‑source – Accès complet au code et aux poids du modèle pour les développeurs qui souhaitent auditer, forker et étendre le travail.
Prototype rapide – L’interface Gradio vous permet d’itérer sur les invites et les ajustements sans écrire de code.
Portée communautaire – Les contributions sont les bienvenues ; le dépôt compte déjà 12 contributeurs et une communauté croissante de musiciens et d'ingénieurs.

Conclusion

ACE‑Step 1.5 est un changement de jeu pour quiconque souhaite générer de la musique haute‑fidélité sur du matériel modeste. Son architecture hybride LM‑DiT, son inférence ultra‑rapide et son vaste ensemble de contrôles en font le premier choix pour artistes, créateurs de contenu et laboratoires de recherche. Téléchargez le dépôt, suivez le guide d’installation simple et commencez à créer votre propre musique personnalisée directement depuis votre ordinateur portable dès aujourd’hui.

Références : dépôt GitHub https://github.com/ace-step/ACE-Step-1.5, HuggingFace Space https://huggingface.co/spaces/ace-step/ace-step-1.5

Original Article: Voir l’original

Partager cet article