Voicebox:Qwen3‑TTS 搭載のオープンソース音声スタジオ

Voicebox: Qwen3‑TTS搭載のオープンソース音声スタジオ

音声合成はもう少数のクラウドベースサービスの専有領域ではありません。Voicebox は、Qwen3‑TTS に基づく無料でローカルファーストのアプリケーションであり、開発者やクリエイターは自分の音声データを所有し、デジタルオーディオワークステーションと同様にマルチトラックオーディオを編集し、Apple Silicon 上でこれまで以上に高速に自然な発話を生成できます。

Voicebox とは何ですか?

  • ローカルファースト:推論・クローン・編集はすべてローカルハードウェアで実行されます。インターネットは不要でサブスクリプション料金も不要です。
  • オープンソース:MIT ライセンスで、完全にコミュニティ主導です。
  • マルチトラック編集:DAW(デジタルオーディオワークステーション)とテキスト音声合成の融合を想像してください。
  • 最新スタックで構築:デスクトップは Tauri(Rust)、UI は React/TS、API は FastAPI、GPU アクセラレーションは MLX/Metal で実装しています。
  • Qwen3‑TTS により動作:Alibaba のブレイクスルーモデルで、数秒の音声だけで声をクローンし、高品質で表現力豊かな発話を生成します。

概要機能一覧

Feature Description
Voice Cloning 短い音声クリップをアップロードするかアプリ内で録音すると、モデルが数秒で再利用可能な音声プロファイルを出力します。
Timeline Editor タイムライン上に複数の音声トラックを配置し、クリップをトリミング・分割し、マーカーを追加できます。すべてゼロレイテンシープレビューで利用可能です。
Multi‑Language Support 現在は英語と中国語に対応しており、Qwen3‑TTS が拡張されるにつれてさらに多くの言語を追加予定です。
Fast Inference on Apple Silicon MLX バックエンドとネイティブ Metal アクセラレーションにより、M1/M2 デバイスで 4〜5 倍の速度向上を実現します。
REST API /generate/profiles などのエンドポイントを公開し、OpenAPI ドキュメントを自動生成します。
Batch Generation 1 リクエストで数十のオーディオファイルを生成でき、長文コンテンツに最適です。
Transcription Whisper モデルを統合し、デバイス上で録音セッションの文字起こしを行います。
Export Options オーディオを WAV、MP3、OGG でエクスポートし、プロジェクトファイルを JSON でバックアップまたは共有用にエクスポートします。
Privacy & Security プロファイルやプロジェクトを明示的にエクスポートしない限り、データはデバイスから抜け出しません。

アーキテクチャスナップショット

graph TD
  A[React‑TS Frontend] -->|REST| B[FastAPI Backend]
  B -->|PyTorch/MLX| C[Qwen3‑TTS Engine]
  B -->|Whisper| D[Transcription]
  B -->|SQLite| E[Database]
  subgraph Desktop
    F[tauri (Rust)] --> A
  end
  subgraph Web
    G[React‑TS app] --> A
  end
  • Frontend:React + TypeScript、Tailwind CSS、Zustand 及び React Query を使用して状態管理とデータ取得を行います。
  • Backend:FastAPI が型付き API、オートメーションドキュメント、非同期パフォーマンスを提供します。
  • Models:Qwen3‑TTS と Whisper は PyTorch と MLX の両方のバックエンドで利用可能で、プラットフォームの柔軟性を提供します。
  • Persistence:SQLite が音声プロファイル、プロジェクトメタデータ及び生成履歴を保存します。

使い始め方

1. インストール

# macOS(Apple Silicon)上で
brew install qt@5  # Tauri の依存関係用
bun install
cd backend && pip install -r requirements.txt
bun run dev   # デスクトップアプリを起動

Windows または Intel ベースの macOS では、リリースページから MSI または ZIP をダウンロードしてください。

2. 声をクローンする

  1. アプリを開き、Create Profile(プロファイル作成)をクリックします。
  2. 5〜10 秒間のクリアな音声を録音またはアップロードします。
  3. モデルが My Voice(私の声)というプロファイルを生成します。
  4. 共有したい場合はプロファイルをエクスポートします。

3. ストーリーを作る

  1. 新しいプロファイルをタイムラインにドラッグします。
  2. スクリプトを入力するか、ドキュメントから貼り付けます。
  3. Batch Generation(バッチ生成)を使用してスクリプト全体を合成します。
  4. タイムラインツールでクリップを配置し、トリミング・ミックスします。
  5. 最終ミックスをエクスポートします。

Voicebox が輝くユースケース

Use Case Why Voicebox Works Example Application
Podcast Production 完全なタイムライン編集、自動ミキシング、ローカルプライバシー 声のクローンを使用してホストを録音し、ゲストを自動ミックス
Game Dialogue 多数のキャラクターに対してダイアログラインをバッチ生成 それぞれユニークな声の NPC ダイアログを即時再生成
Accessibility Tools 視覚障害者向けのオフライン音声合成 デバイス上でのスクリーンリーダーやオーディオブック
Voice Assistant ローカル API を低レイテンシで統合 データ漏洩のないカスタムアシスタントを構築
Content Automation ビデオ用のナレーションを自動生成 スケールで解説動画の声入れを制作

Voicebox の拡張

  • プラグインシステム:XTTS、Bark などの新しい音声モデルやオーディオエフェクトを別の Tauri パッケージとして追加できます。
  • モバイルアプリ:将来的に LAN 経由でデスクトップ Voicebox を制御するスマホアプリを予定しています。
  • リアルタイム合成:生成された音声を即座にストリーミングする機能が追加され、ライブパフォーマンスが可能になります。

コミュニティ & コントリビューション

Voicebox は歓迎的かつオープンな設計です。

  • 貢献:プルリクエストを歓迎します。CONTRIBUTING.mdで設定を確認してください。
  • セキュリティSECURITY.mdに従って問題を責任を持って報告してください。
  • リリース:新しい安定版ビルドが GitHub Releases に公開されます。
  • ドキュメント:実行時に http://localhost:8000/docs で総合 API ドキュメントを利用できます。

Bottom Line

Voicebox はノートパソコンをプロフェッショナルかつプライバシーを保護した音声スタジオへと変えます。音声ベースのゲームを試作したり、ポッドキャストを作成したり、個人アクセシビリティツールを構築したりする場合でも、費用の高いクラウド API に依存する必要はありません。今日から始めて、GitHub リポジトリをフォークし、あなたの手元で管理できる音声体験を構築してください。

この記事を共有