ACE‑Step 1.5:开源音乐模型优于商业版本

ACE-Step 1.5 – 能击败商业替代品的开源音乐生成模型

ACE‑Step 1.5 是什么?

ACE‑Step 是一款模块化、混合架构的音乐基础模型,在 MIT 许可证下发布。它将 语言模型 (LM)——用作全能规划器,将简单提示转换为歌曲蓝图——与 扩散变换器 (DiT) 结合,后者生成原始音频。LM 提供歌词、结构、风格标记以及引导文本,甚至执行链式思维推理,以保持音乐与用户意图的一致性。

结果是什么?商业级输出(常常优于 Suno v4.5,接近 Suno v5),同时保持 轻量化:4 GB 以上 VRAM 足以在 RTX 3090 上生成完整的 5 分钟曲目,时间不到 10 秒,甚至在 A100 上约 2 秒。也可以使用纯 CPU 版本,只是速度更慢。

核心功能亮点

  • 快速生成 – A100 上 2 s/音频,RTX 3090 上 10 s。
  • 高质量、多语言歌词 – 支持 50+ 语言的歌词输入。
  • 丰富的风格控制 – 1,000+ 乐器和细粒度音色描述符。
  • 零延迟编辑 – 覆盖生成、重绘、歌声到背景音乐、轨道分离、多轨层叠等。
  • 轻量化个性化 – 仅用少量歌曲(≈8 首,3090 上 1 小时)即可微调 LoRA。适用于 12–16 GB VRAM。
  • 模型仓库 – DiT 与 LM 变体(0.6 B / 1.7 B / 4 B)以及 turbo、shift、continuous、SFT 等。
  • 简易部署 – Gradio UI、REST API、单行 uv 命令、Windows 可移植包。

快速开始

1. 克隆仓库

git clone https://github.com/ace-step/ACE-Step-1.5.git
cd ACE-Step-1.5

如果你更喜欢直接使用 Python,请确保已安装 Python 3.11uv(现代 Python 包管理器)。Windows 包含 python_embeded,可快速启动。

2. 安装依赖

uv sync

对于 Windows 可移植包,只需双击 start_gradio_ui.bat 进行自动安装。

小贴士 – 在 Linux / macOS 上可能需要先安装 uv

curl -LsSf https://astral.sh/uv/install.sh | sh

然后运行 uv sync

3. 下载模型检查点

模型会在你首次使用 UI 或 API 时自动下载。如果想提前下载:

uv run acestep-download --all

这将一次性下载全部内容:DiT、LM(1.7 B 与 0.6 B)、VAE、嵌入等。可选变体如 acestep-v15-turbo-shift3 也可用。

4. 启动 Gradio UI

uv run acestep

或在 Windows 包中:

start start_gradio_ui.bat

在浏览器打开 http://localhost:7860。UI 支持多语言;启动时选择你的语言。

5. 运行 REST API(可选)

uv run acestep-api

这将在 http://localhost:8001 启动服务器。可使用 curl 或 Postman 访问 /v1/generate

6. 全平台快速启动命令

功能 命令
Gradio uv run acestep --serve-name 0.0.0.0 --share
API(带密钥) uv run acestep-api --api-key secret123
预初始化 LM uv run acestep --init_service true --lm_model_path acestep-5Hz-lm-1.7B
使用 ModelScope 下载源 uv run acestep --download-source modelscope

对基于脚本的 Windows 用户,可编辑 start_gradio_ui.batstart_api_server.bat,调整 LANGUAGEDOWNLOAD_SOURCECONFIG_PATH

自定义 ACE‑Step

1. 选择合适的 LM/DiT

GPU VRAM 推荐 LM 说明
≤ 6 GB 无(仅 DiT) 默认卸载到 CPU
6–12 GB acestep-5Hz-lm-0.6B 轻量,质量好
12–16 GB acestep-5Hz-lm-1.7B 更佳音频理解
≥ 16 GB acestep-5Hz-lm-4B 最高保真度

在 UI 或使用 --lm_model_path 设置 LM 路径。

2. LoRA 训练

  1. 准备数据 – 8–12 首 WAV/MP3 格式的短歌。
  2. 启动 LoRA UI – Gradio 包含 “LoRA” 标签页。
  3. 配置 – 选择数据集文件夹,设置学习率、训练轮数。
  4. 训练 – 点击 “Train Now”。在 3090 上训练约 1 小时。
  5. 保存 – 生成的 .pt 文件可重新加载到 ACE‑Step 中进行推理。

3. 高级编辑

  • 重绘 & 编辑 – 选择片段并点击 “Edit”;模型会重新生成该切片。
  • 翻唱生成 – 上传音频文件,选择目标风格后生成。
  • 轨道分离 – 使用内置功能将音频分离成声部(人声、鼓、低音等)。
  • 歌声到背景音乐 – 将人声轨道作为条件生成伴奏。

常见问题与故障排除

问题 解决方案
“CUDA error: out of memory” 减少 --max_length,或改用 0.6 B LM 变体。
模型下载失败 确认 uv 在 PATH,且网络未被阻断。尝试 --download-source huggingface
Gradio UI 无法加载 检查 7860 端口是否空闲;可尝试 --port 7861
API 返回 401 在命令中提供正确的 --api-key,或在 .env 文件中设置。
Windows “Portable” 无效 确认 python_embeded\requirements.txt 存在,并运行 uv install

为什么 ACE‑Step 重要

  • 无需云 – 你可以把整个流程保留在本地,保障隐私并消除带宽成本。
  • 开源透明 – 完全访问代码与模型权重,让开发者可审计、分叉并扩展项目。
  • 快速原型 – Gradio 接口让你在无需写代码的情况下迭代提示与微调。
  • 社区驱动 – 欢迎贡献;仓库已拥有 12 位贡献者,且社区正在快速增长。

结论

ACE‑Step 1.5 是一款面向希望在硬件有限的情况下生成高保真音乐的人的游戏规则改变者。其混合 LM‑DiT 设计、闪电般的推理速度以及丰富的控制套件,使其成为艺术家、内容创作者和研究实验室的首选。下载仓库,按照简易安装指南操作,即可立即在笔记本电脑上开始创作你自己的定制音乐。


参考资料:GitHub 仓库 https://github.com/ace-step/ACE-Step-1.5, HuggingFace 空间 https://huggingface.co/spaces/ace-step/ace-step-1.5

原创文章: 查看原文

分享本文