ACE‑Step 1.5: オープンソース音楽モデルが商用を上回る

ACE-Step 1.5 – コマーシャル代替品を上回るオープンソース音楽生成モデル

ACE‑Step 1.5とは?

ACE‑Stepは、MITライセンスで公開されたモジュラー型ハイブリッドアーキテクチャの音楽基盤モデルです。単純なプロンプトを楽曲設計図に変換する万能プランナーとして機能する言語モデル(LM)と、原始音声を生成するディフュージョン・トランスフォーマー(DiT)を組み合わせています。LMは歌詞、構造、スタイルトークン、ガイディングテキストを供給し、思考過程の推論も行って、音楽をユーザーの意図に合わせて揃えます。

結果は?商用レベルの出力(Suno v4.5を頻繁に上回り、Suno v5に近い)を実現しつつ、軽量設計を保っています。4 GB未満のVRAMでRTX 3090なら5分間のトラックを10秒以内、A100なら約2秒で生成できます。CPU専用ビルドも可能ですが、速度は遅くなります。

主な機能ハイライト

  • 高速生成 – A100で2 秒/音声、RTX 3090で10 秒。
  • 高品質多言語歌詞 – 50以上の言語で歌詞入力に対応。
  • 豊富なスタイル制御 – 1,000種以上の楽器と細かい音色記述子。
  • ゼロレイテンシ編集 – カバー生成、リペイント、ボーカル→BGM、トラック分離、マルチトラックレイヤリング等。
  • 軽量パーソナライズ – LoRAを数曲(約8曲、3090で1時間)で微調整可能。12–16 GB VRAMで動作します。
  • モデルズー – DiTとLMのバリエーション(0.6 B / 1.7 B / 4 B)、ターボ、シフト、連続、SFT等。
  • 簡単デプロイ – Gradio UI、REST API、1行uvコマンド、Windowsポータブルバンドル。

はじめに

1. リポジトリをクローンする

git clone https://github.com/ace-step/ACE-Step-1.5.git
cd ACE-Step-1.5

Python 3.11とモダンなパッケージマネージャーuvをインストール済みであることを確認してください。Windowsバンドルにはpython_embededが付属しており、すぐに起動できます。

2. 依存関係をインストールする

uv sync

Windowsポータブルパッケージではstart_gradio_ui.batをダブルクリックすると自動的にインストールされます。

Tip – Linux / macOS を使用している場合、まずuvをインストールする必要があります。

curl -LsSf https://astral.sh/uv/install.sh | sh
その後 uv sync を実行してください。

3. モデルチェックポイントをダウンロードする

UIまたはAPIを初めて実行したときに自動でダウンロードされますが、事前にダウンロードしたい場合は次のコマンドを使用します。

uv run acestep-download --all

このコマンドは、DiT、LM(1.7 Bと0.6 B)、VAE、埋め込みなどすべてを取得します。acestep-v15-turbo-shift3などのオプションバリエーションも利用可能です。

4. Gradio UIを起動する

uv run acestep
または、Windowsバンドルからは次のように実行します。

start start_gradio_ui.bat

ブラウザで http://localhost:7860 を開きます。UIは多言語対応で、起動時に言語を選択できます。

5. REST APIを起動する(オプション)

uv run acestep-api

これにより http://localhost:8001 にサーバが起動します。curlやPostmanで /v1/generate エンドポイントを呼び出せます。

6. すべてのプラットフォーム向けクイックスタートコマンド

機能 コマンド
Gradio uv run acestep --serve-name 0.0.0.0 --share
API(キー付き) uv run acestep-api --api-key secret123
LMを事前初期化 uv run acestep --init_service true --lm_model_path acestep-5Hz-lm-1.7B
ModelScope ダウンロードソースを使用 uv run acestep --download-source modelscope

スクリプトベースのWindowsユーザーは、start_gradio_ui.batまたはstart_api_server.batを編集して、LANGUAGEDOWNLOAD_SOURCECONFIG_PATHを調整してください。

ACE‑Step のカスタマイズ

1. 適切なLM/DiTを選択する

GPU VRAM 推奨LM 備考
≤ 6 GB なし(DiTのみ) デフォルトでCPUへオフロード
6–12 GB acestep-5Hz-lm-0.6B 軽量で高品質
12–16 GB acestep-5Hz-lm-1.7B より深い音声理解
≥ 16 GB acestep-5Hz-lm-4B 最高の忠実度

UI上でLMのパスを設定するか、--lm_model_pathオプションを使用してください。

2. LoRAトレーニング

  1. データを準備 – WAV/MP3形式の8–12曲短編を用意します。
  2. LoRA UIを起動 – Gradioには「LoRA」タブがあります。
  3. 設定 – データセットフォルダを選択し、学習率とエポック数を設定します。
  4. トレーニング – 「Train Now」をクリック。3090で約1時間で完了します。
  5. 保存 – 生成された.ptファイルをACE‑Stepに読み込んで推論に再利用します。

3. 高度な編集

  • リペイント&編集 – セグメントを選択し「Edit」をクリックすると、その部分が再生成されます。
  • カバー生成 – 音源ファイルをアップロードし、ターゲットスタイルを選択して生成します。
  • トラック分離 – ボーカル、ドラム、ベースなどを分離します。
  • ボーカル→BGM – ボーカルトラックを条件付けて伴奏を作成します。

よくある質問とトラブルシューティング

問題 解決策
「CUDA error: out of memory」 --max_length を減らすか、0.6 B LMに切り替えてください。
モデルがダウンロードできない uv がPATHにあるか確認し、インターネットが遮断されていないか確認してください。--download-source huggingface を試すのも有効です。
Gradio UI が読み込まれない ポート 7860 が空いているか確認し、--port 7861 で試してください。
API が401 を返す コマンドラインで正しい --api-key を指定するか、.env ファイルに設定してください。
Windows「Portable」が動作しない `python_embeded
equirements.txtが存在し、uv install` が実行されているか確認してください。

なぜ ACE‑Step は重要か

  • クラウド不要 – パイプラインのすべてをローカルで完結させ、プライバシーを保護し、帯域幅コストをゼロにします。
  • オープンソースの透明性 – コードとモデル重みを完全に閲覧でき、開発者は監査・フォーク・拡張が可能です。
  • 高速プロトタイピング – Gradio インターフェースでコードを書かずにプロンプトや調整を繰り返せます。
  • コミュニティ主導 – コントリビューションを歓迎し、既に12人の貢献者と音楽家・エンジニアのコミュニティが拡大しています。

結論

ACE‑Step 1.5は、手頃なハードウェアで高忠実度音楽を生成したい全ての人にとって画期的な存在です。そのハイブリッドLM‑DiT設計、驚異的な高速推論、そして豊富な制御機能は、アーティスト、コンテンツクリエイター、研究所にとって究極の選択肢となります。リポジトリを取得し、簡単なインストールガイドに従い、今すぐノートパソコンから独自の音楽を作成し始めましょう。


参考文献: GitHubリポジトリ https://github.com/ace-step/ACE-Step-1.5、HuggingFace Space https://huggingface.co/spaces/ace-step/ace-step-1.5

この記事を共有