ACE-Step 1.5: Open‑Source Music Model Outperforms Commercial
ACE-Step 1.5 – El modelo de generación musical de código abierto que supera a las alternativas comerciales
¿Qué es ACE‑Step 1.5?
ACE‑Step es un modelo de base modular y de arquitectura híbrida lanzado bajo la licencia MIT. Combina un Modelo de Lenguaje (LM) —usado como planificador omnipotente— para convertir indicaciones simples en planos de canciones, con un Diffusion Transformer (DiT) que genera audio crudo. El LM suministra letras, estructura, tokens de estilo y texto guía, e incluso realiza razonamiento de cadena de pensamiento para mantener la música alineada con la intención del usuario.
¿El resultado? Salida de grado comercial (a menudo superando a Suno v4.5, cerca de Suno v5) mientras permanece ligera: menos de 4 GB de VRAM es suficiente para generar una pista completa de 5 min en menos de 10 s en una RTX 3090 o incluso ~2 s en una A100. También es posible una versión pura de CPU, aunque más lenta.
Destacados de funcionalidades principales
- Generación rápida – 2 s/sound en A100, 10 s en RTX 3090.
- Letras de alta calidad, multilingües – Soporta más de 50 idiomas para entrada de letras.
- Control de estilo rico – Más de 1 000 instrumentos y descriptores de timbre granulares.
- Edición sin latencia – Generación de covers, repaint, vocal‑to‑BGM, separación de pistas, layering multi‑track, etc.
- Personalización ligera – Ajusta una LoRA con solo unas pocas canciones (≈8 canciones, 1 hora en 3090). Funciona con 12–16 GB de VRAM.
- Modelo de referencia – Variantes DiT y LM (0.6 B / 1.7 B / 4 B), turbo, shift, continuo, SFT, etc.
- Despliegue sencillo – Interfaz Gradio, API REST, comandos
uvde línea única, paquete portátil para Windows.
Empezando
1. Clonar el repositorio
git clone https://github.com/ace-step/ACE-Step-1.5.git
cd ACE-Step-1.5
Si prefieres usar Python directamente, asegúrate de tener Python 3.11 y uv (el administrador de paquetes Python moderno). El paquete portátil para Windows incluye python_embeded para un lanzamiento rápido.
2. Instalar dependencias
uv sync
Para el paquete portátil de Windows, simplemente haz doble clic en start_gradio_ui.bat para instalar automáticamente.
Tip – En Linux / macOS quizá necesites instalar
uvprimero:curl -LsSf https://astral.sh/uv/install.sh | shLuego ejecuta
uv sync.
3. Descargar los checkpoints del modelo
Los modelos se descargan automáticamente la primera vez que ejecutas la UI o la API. Si deseas pre‑descargar:
uv run acestep-download --all
Esto descarga todo: DiT, LM (1.7 B y 0.6 B), VAE, embedding, etc. Variantes opcionales como acestep-v15-turbo-shift3 también están disponibles.
4. Lanzar la UI de Gradio
uv run acestep
o, desde el paquete portátil de Windows:
start start_gradio_ui.bat
Abre http://localhost:7860 en tu navegador. La UI es multilingüe; elige tu idioma al inicio.
5. Ejecutar la API REST (opcional)
uv run acestep-api
Esto inicia un servidor en http://localhost:8001. Usa curl o Postman para llamar a /v1/generate.
6. Comandos de rápida configuración (todas las plataformas)
| Función | Comando |
|---|---|
| Gradio | uv run acestep --serve-name 0.0.0.0 --share |
| API (con clave) | uv run acestep-api --api-key secret123 |
| Pre‑inicializar LM | uv run acestep --init_service true --lm_model_path acestep-5Hz-lm-1.7B |
| Usar fuente de descarga ModelScope | uv run acestep --download-source modelscope |
Para usuarios de Windows basados en scripts, edita start_gradio_ui.bat o start_api_server.bat para ajustar LANGUAGE, DOWNLOAD_SOURCE o CONFIG_PATH.
Personalizando ACE‑Step
1. Seleccionar el LM/DiT adecuado
| VRAM GPU | LM recomendado | Notas |
|---|---|---|
| ≤ 6 GB | Ninguno (solo DiT) | Se descarga a CPU por defecto |
| 6–12 GB | acestep-5Hz-lm-0.6B |
Ligero, buena calidad |
| 12–16 GB | acestep-5Hz-lm-1.7B |
Mejor comprensión de audio |
| ≥ 16 GB | acestep-5Hz-lm-4B |
Más alta fidelidad |
Establece la ruta del LM en la UI o mediante --lm_model_path.
2. Entrenamiento LoRA
- Preparar datos – 8–12 canciones cortas en formato WAV/MP3.
- Iniciar la UI LoRA – Gradio incluye una pestaña llamada “LoRA”.
- Configurar – Selecciona la carpeta del conjunto de datos, establece la tasa de aprendizaje y épocas.
- Entrenar – Haz clic en “Train Now”. Entrenar en una 3090 toma ~ 1 h.
- Guardar – El archivo
.ptresultante se puede cargar de nuevo en ACE‑Step para inferencia.
3. Edición avanzada
- Repaint y Editar – Selecciona un segmento y haz clic en “Edit”; el modelo vuelve a generar esa franja.
- Generación de covers – Sube un archivo de audio, elige un estilo objetivo y genera.
- Separación de pistas – Separa en stems (vocal, batería, bajo, etc.) usando funciones integradas.
- Vocal‑to‑BGM – Usa la pista vocal como condicionamiento para producir acompañamiento.
Preguntas frecuentes y solución de problemas
| Problema | Solución |
|---|---|
| “CUDA error: out of memory” | Reduce --max_length o cambia a la variante LM 0.6 B. |
| Modelos no descargan | Asegúrate de que uv esté en PATH y que tu internet no esté bloqueado. Prueba --download-source huggingface. |
| UI de Gradio no carga | Verifica si el puerto 7860 está libre; intenta --port 7861. |
| API devuelve 401 | Proporciona la clave correcta --api-key en el comando o configúrala en el archivo .env. |
| Paquete “Portable” de Windows no funciona | Verifica que `python_embeded |
equirements.txtesté presente y ejecutauv install`. |
Por qué ACE‑Step importa
- Sin nube necesaria – Mantienes cada parte de la tubería local, preservando la privacidad y eliminando costes de ancho de banda.
- Transparencia de código abierto – Acceso completo al código y pesos del modelo permite a los desarrolladores auditar, bifurcar y ampliar el trabajo.
- Prototipado rápido – La interfaz Gradio permite iterar sobre indicaciones y ajustes sin escribir código.
- Impulsado por la comunidad – Se aceptan contribuciones; el repositorio ya cuenta con 12 colaboradores y una comunidad creciente de músicos e ingenieros.
Conclusión
ACE‑Step 1.5 es un punto de inflexión para cualquiera que desee generar música de alta fidelidad en hardware modesto. Su diseño híbrido LM‑DiT, inferencia ultrarrápida y conjunto de control extensivo lo convierten en la opción principal para artistas, creadores de contenido y laboratorios de investigación. Obtén el repositorio, sigue la guía de instalación sencilla y empieza a crear tu propia música personalizada desde tu portátil hoy.
Referencias: repositorio de GitHub https://github.com/ace-step/ACE-Step-1.5, HuggingFace Space https://huggingface.co/spaces/ace-step/ace-step-1.5