Voicebox:Qwen3‑TTS 搭載のオープンソース音声スタジオ
February 04, 2026
カテゴリ:
実用的なオープンソースプロジェクト
Voicebox: Qwen3‑TTS搭載のオープンソース音声スタジオ
音声合成はもう少数のクラウドベースサービスの専有領域ではありません。Voicebox は、Qwen3‑TTS に基づく無料でローカルファーストのアプリケーションであり、開発者やクリエイターは自分の音声データを所有し、デジタルオーディオワークステーションと同様にマルチトラックオーディオを編集し、Apple Silicon 上でこれまで以上に高速に自然な発話を生成できます。
Voicebox とは何ですか?
- ローカルファースト:推論・クローン・編集はすべてローカルハードウェアで実行されます。インターネットは不要でサブスクリプション料金も不要です。
- オープンソース:MIT ライセンスで、完全にコミュニティ主導です。
- マルチトラック編集:DAW(デジタルオーディオワークステーション)とテキスト音声合成の融合を想像してください。
- 最新スタックで構築:デスクトップは Tauri(Rust)、UI は React/TS、API は FastAPI、GPU アクセラレーションは MLX/Metal で実装しています。
- Qwen3‑TTS により動作:Alibaba のブレイクスルーモデルで、数秒の音声だけで声をクローンし、高品質で表現力豊かな発話を生成します。
概要機能一覧
| Feature | Description |
|---|---|
| Voice Cloning | 短い音声クリップをアップロードするかアプリ内で録音すると、モデルが数秒で再利用可能な音声プロファイルを出力します。 |
| Timeline Editor | タイムライン上に複数の音声トラックを配置し、クリップをトリミング・分割し、マーカーを追加できます。すべてゼロレイテンシープレビューで利用可能です。 |
| Multi‑Language Support | 現在は英語と中国語に対応しており、Qwen3‑TTS が拡張されるにつれてさらに多くの言語を追加予定です。 |
| Fast Inference on Apple Silicon | MLX バックエンドとネイティブ Metal アクセラレーションにより、M1/M2 デバイスで 4〜5 倍の速度向上を実現します。 |
| REST API | /generate、/profiles などのエンドポイントを公開し、OpenAPI ドキュメントを自動生成します。 |
| Batch Generation | 1 リクエストで数十のオーディオファイルを生成でき、長文コンテンツに最適です。 |
| Transcription | Whisper モデルを統合し、デバイス上で録音セッションの文字起こしを行います。 |
| Export Options | オーディオを WAV、MP3、OGG でエクスポートし、プロジェクトファイルを JSON でバックアップまたは共有用にエクスポートします。 |
| Privacy & Security | プロファイルやプロジェクトを明示的にエクスポートしない限り、データはデバイスから抜け出しません。 |
アーキテクチャスナップショット
graph TD
A[React‑TS Frontend] -->|REST| B[FastAPI Backend]
B -->|PyTorch/MLX| C[Qwen3‑TTS Engine]
B -->|Whisper| D[Transcription]
B -->|SQLite| E[Database]
subgraph Desktop
F[tauri (Rust)] --> A
end
subgraph Web
G[React‑TS app] --> A
end
- Frontend:React + TypeScript、Tailwind CSS、Zustand 及び React Query を使用して状態管理とデータ取得を行います。
- Backend:FastAPI が型付き API、オートメーションドキュメント、非同期パフォーマンスを提供します。
- Models:Qwen3‑TTS と Whisper は PyTorch と MLX の両方のバックエンドで利用可能で、プラットフォームの柔軟性を提供します。
- Persistence:SQLite が音声プロファイル、プロジェクトメタデータ及び生成履歴を保存します。
使い始め方
1. インストール
# macOS(Apple Silicon)上で
brew install qt@5 # Tauri の依存関係用
bun install
cd backend && pip install -r requirements.txt
bun run dev # デスクトップアプリを起動
Windows または Intel ベースの macOS では、リリースページから MSI または ZIP をダウンロードしてください。
2. 声をクローンする
- アプリを開き、Create Profile(プロファイル作成)をクリックします。
- 5〜10 秒間のクリアな音声を録音またはアップロードします。
- モデルが My Voice(私の声)というプロファイルを生成します。
- 共有したい場合はプロファイルをエクスポートします。
3. ストーリーを作る
- 新しいプロファイルをタイムラインにドラッグします。
- スクリプトを入力するか、ドキュメントから貼り付けます。
- Batch Generation(バッチ生成)を使用してスクリプト全体を合成します。
- タイムラインツールでクリップを配置し、トリミング・ミックスします。
- 最終ミックスをエクスポートします。
Voicebox が輝くユースケース
| Use Case | Why Voicebox Works | Example Application |
|---|---|---|
| Podcast Production | 完全なタイムライン編集、自動ミキシング、ローカルプライバシー | 声のクローンを使用してホストを録音し、ゲストを自動ミックス |
| Game Dialogue | 多数のキャラクターに対してダイアログラインをバッチ生成 | それぞれユニークな声の NPC ダイアログを即時再生成 |
| Accessibility Tools | 視覚障害者向けのオフライン音声合成 | デバイス上でのスクリーンリーダーやオーディオブック |
| Voice Assistant | ローカル API を低レイテンシで統合 | データ漏洩のないカスタムアシスタントを構築 |
| Content Automation | ビデオ用のナレーションを自動生成 | スケールで解説動画の声入れを制作 |
Voicebox の拡張
- プラグインシステム:XTTS、Bark などの新しい音声モデルやオーディオエフェクトを別の Tauri パッケージとして追加できます。
- モバイルアプリ:将来的に LAN 経由でデスクトップ Voicebox を制御するスマホアプリを予定しています。
- リアルタイム合成:生成された音声を即座にストリーミングする機能が追加され、ライブパフォーマンスが可能になります。
コミュニティ & コントリビューション
Voicebox は歓迎的かつオープンな設計です。
- 貢献:プルリクエストを歓迎します。
CONTRIBUTING.mdで設定を確認してください。 - セキュリティ:
SECURITY.mdに従って問題を責任を持って報告してください。 - リリース:新しい安定版ビルドが GitHub Releases に公開されます。
- ドキュメント:実行時に
http://localhost:8000/docsで総合 API ドキュメントを利用できます。
Bottom Line
Voicebox はノートパソコンをプロフェッショナルかつプライバシーを保護した音声スタジオへと変えます。音声ベースのゲームを試作したり、ポッドキャストを作成したり、個人アクセシビリティツールを構築したりする場合でも、費用の高いクラウド API に依存する必要はありません。今日から始めて、GitHub リポジトリをフォークし、あなたの手元で管理できる音声体験を構築してください。
元の記事:
オリジナルを見る