ACE‑Step 1.5 : Modèle musical open‑source qui surpasse les solutions commerciales
ACE-Step 1.5 – Le modèle de génération musicale open‑source qui bat les alternatives commerciales
Qu'est‑ce que ACE‑Step 1.5 ?
ACE‑Step est un modèle fondamental de musique modulaire à architecture hybride publié sous licence MIT. Il combine un Modèle de Langage (LM) — utilisé comme planificateur omnipotent — pour transformer des invites simples en plans de chansons, avec un Diffusion Transformer (DiT) qui génère l'audio brut. Le LM fournit les paroles, la structure, les jetons de style et le texte guidant, et même effectue un raisonnement en chaîne pour garder la musique alignée sur l'intention de l'utilisateur.
Le résultat ? Un rendu de qualité commerciale (souvent surpassant Suno v4.5, proche de Suno v5) tout en restant léger : moins de 4 GB VRAM suffit pour générer une piste complète de 5 minutes en moins de 10 s sur un RTX 3090 ou même ~2 s sur un A100. Une version pure CPU est également possible, mais plus lente.
Points forts principaux
- Génération rapide – 2 s par son sur A100, 10 s sur RTX 3090.
- Paroles de haute qualité, multilingues – Prend en charge plus de 50 langues pour les entrées de texte.
- Contrôle de style riche – Plus de 1 000 instruments et descripteurs de timbre fins.
- Montage en temps réel – Génération de covers, retouches, vocal‑to‑BGM, séparation de pistes, superposition multitrack, etc.
- Personnalisation légère – Affinez un LoRA avec seulement quelques chansons (≈8 chansons, 1 h sur 3090). Fonctionne avec 12–16 GB VRAM.
- Modèles variés – DiT et LM variantes (0.6 B / 1.7 B / 4 B), turbo, shift, continuous, SFT, etc.
- Déploiement simple – UI Gradio, REST API, commandes
uven une ligne, bundle portable Windows.
Démarrage rapide
1. Clonez le dépôt
git clone https://github.com/ace-step/ACE-Step-1.5.git
cd ACE-Step-1.5
Si vous préférez Python directement, assurez‑vous d'avoir Python 3.11 et uv (le gestionnaire de paquets Python moderne). Le bundle Windows contient python_embeded pour un lancement rapide.
2. Installez les dépendances
uv sync
Pour le package portable Windows, double‑cliquez simplement sur start_gradio_ui.bat pour l'installation automatique.
Astuce – Sous Linux / macOS vous devrez peut‑être installer
uvd’abord :curl -LsSf https://astral.sh/uv/install.sh | shPuis lancez
uv sync.
3. Téléchargez les points de contrôle du modèle
Les modèles se téléchargent automatiquement la première fois que vous lancez l’UI ou l’API. Si vous voulez pré‑télécharger :
uv run acestep-download --all
Cela récupère tout : DiT, LM (1.7 B et 0.6 B), VAE, embed, etc. Les variantes optionnelles comme acestep-v15-turbo-shift3 sont également disponibles.
4. Lancez l’UI Gradio
uv run acestep
ou, depuis le bundle Windows :
start start_gradio_ui.bat
Ouvrez http://localhost:7860 dans votre navigateur. L’UI est multilingue ; choisissez votre langue au démarrage.
5. Lancez l’API REST (optionnel)
uv run acestep-api
Cela démarre un serveur à http://localhost:8001. Utilisez curl ou Postman pour appeler /v1/generate.
6. Commandes rapides (toutes plateformes)
| Fonction | Commande |
|---|---|
| Gradio | uv run acestep --serve-name 0.0.0.0 --share |
| API (avec clé) | uv run acestep-api --api-key secret123 |
| Pré‑initialisation du LM | uv run acestep --init_service true --lm_model_path acestep-5Hz-lm-1.7B |
| Utiliser une source de téléchargement ModelScope | uv run acestep --download-source modelscope |
Pour les utilisateurs Windows script‑based, éditez start_gradio_ui.bat ou start_api_server.bat pour ajuster LANGUAGE, DOWNLOAD_SOURCE ou CONFIG_PATH.
Personnaliser ACE‑Step
1. Sélectionner le bon LM/DiT
| VRAM GPU | LM recommandé | Remarques |
|---|---|---|
| ≤ 6 GB | Aucun (DiT uniquement) | Basculer vers le CPU par défaut |
| 6–12 GB | acestep-5Hz-lm-0.6B |
Léger, bonne qualité |
| 12–16 GB | acestep-5Hz-lm-1.7B |
Meilleure compréhension audio |
| ≥ 16 GB | acestep-5Hz-lm-4B |
Précision maximale |
Définissez le chemin du LM dans l’UI ou via --lm_model_path.
2. Entraînement LoRA
- Préparez les données – 8–12 courtes chansons au format WAV/MP3.
- Lancez l’UI LoRA – Gradio dispose d’un onglet « LoRA ».
- Configurez – Choisissez le dossier du jeu de données, fixez le taux d’apprentissage, les époques.
- Entraînez – Cliquez sur « Train Now ». L’entraînement sur 3090 prend ~ 1 h.
- Sauvegardez – Le fichier
.ptrésultant peut être rechargé dans ACE‑Step pour l’inférence.
3. Montage avancé
- Retouche & édition – Sélectionnez un segment et cliquez sur « Edit » ; le modèle régénère cette tranche.
- Génération de cover – Téléchargez un fichier audio, choisissez un style cible, puis générez.
- Séparation de pistes – Séparez en stems (voix, batterie, basse, etc.) en utilisant les fonctions intégrées.
- Vocal‑to‑BGM – Utilisez la piste vocale comme conditionnement pour produire un accompagnement.
FAQ & dépannage
| Problème | Solution |
|---|---|
| “Erreur CUDA : mémoire insuffisante” | Réduisez --max_length ou passez à la variante LM 0.6 B. |
| Les modèles ne téléchargent pas | Assurez‑vous que uv est dans le PATH et que votre internet n’est pas bloqué. Essayez --download-source huggingface. |
| L’UI Gradio ne charge pas | Vérifiez si le port 7860 est libre ; essayez --port 7861. |
| L’API renvoie 401 | Fournissez la bonne --api-key dans la commande ou définissez‑la dans le fichier .env. |
| Portable Windows ne fonctionne pas | Vérifiez que python_embeded\requirements.txt est présent et exécutez uv install. |
Pourquoi ACE‑Step compte
- Pas de cloud requis – Vous conservez toute la chaîne localement, préservant la confidentialité et éliminant les coûts de bande passante.
- Transparence open‑source – Accès complet au code et aux poids du modèle pour les développeurs qui souhaitent auditer, forker et étendre le travail.
- Prototype rapide – L’interface Gradio vous permet d’itérer sur les invites et les ajustements sans écrire de code.
- Portée communautaire – Les contributions sont les bienvenues ; le dépôt compte déjà 12 contributeurs et une communauté croissante de musiciens et d'ingénieurs.
Conclusion
ACE‑Step 1.5 est un changement de jeu pour quiconque souhaite générer de la musique haute‑fidélité sur du matériel modeste. Son architecture hybride LM‑DiT, son inférence ultra‑rapide et son vaste ensemble de contrôles en font le premier choix pour artistes, créateurs de contenu et laboratoires de recherche. Téléchargez le dépôt, suivez le guide d’installation simple et commencez à créer votre propre musique personnalisée directement depuis votre ordinateur portable dès aujourd’hui.
Références : dépôt GitHub https://github.com/ace-step/ACE-Step-1.5, HuggingFace Space https://huggingface.co/spaces/ace-step/ace-step-1.5