Voice‑Pro: 多言語メディア向けオープンソースAI吹替スタジオ
January 16, 2026
カテゴリ:
実用的なオープンソースプロジェクト
Voice‑Pro: オールインワン・オープンソースAI吹替スタジオ
AI を活用したメディア制作の世界は急速に拡大しています。テキスト読み上げ(TTS)、ボイスクローン、リアルタイム翻訳、マルチメディア処理を統合した無料のオープンソースソリューションを探しているなら、Voice‑Pro が最適です。
Voice‑Pro とは?
- オープンソース Web UI:Gradio 5.14.0 をベースに GPL‑3.0 ライセンスでリリース。
- 音声認識:Whisper、Faster‑Whisper、Whisper‑Timestamped、WhisperX が搭載。
- ゼロショットボイスクローン:E2‑TTS、F5‑TTS、CosyVoice、Kokoro。
- テキスト読み上げ:Edge‑TTS(100+ 言語、400+ 声)、Kokoro(HF TTS Arena で #2 ランク)、オプションで有料 Azure TTS。
- 多言語翻訳:Deep‑Translator(100+ 言語、有料 Azure Translator オプション)。
- YouTube ダウンローダー (yt‑dlp) + 音声分離 (Demucs) + 字幕生成。
- 対応 OS:Windows(NVIDIA GPU)、macOS、Linux。
利用者層
- ポッドキャスター & YouTuber:サブスクリプション費用なしで AI 声で吹替エピソードを作成。
- 教育者 & e‑learning 制作者:動画の多言語字幕と翻訳を生成。
- 開発者 & 研究者:サンドボックスで最先端 TTS モデルを実験。
- コンテンツクリエイター:カラオケトラックや AI 生成オーディオブックを制作。
すぐに始める – インストール
前提条件
| コンポーネント | 最小 | 推奨 |
|---|---|---|
| OS | Windows 10/11, macOS 10.15+, Ubuntu 20.04+ | すべて |
| GPU | CPU の場合は不要、そうでなければ NVIDIA CUDA 12.4 | NVIDIA 8 GB+ VRAM |
| RAM | 4 GB | 8 GB+ |
| ディスク | 20 GB 空き | 30 GB+ |
リポジトリをクローン
git clone https://github.com/abus-aikorea/voice-pro.git
cd voice-pro
設定 (Windows)
configure.bat # ffmpeg をインストールし、CUDA を確認し、モデルをダウンロード
設定 (macOS / Linux)
chmod +x configure.sh
./configure.sh
ヒント:最初の実行時に大きなモデルチェックポイント(約10 GB)がダウンロードされます。高速なインターネット接続を確保してください。
WebUI の起動
start.bat # Windows
./start.sh # macOS / Linux
http://127.0.0.1:7870/ で起動します。ブラウザで開いてください。
Voice‑Pro の使い方 – ステップ・バイ・ステップ
- 動画または音声のアップロード – Dubbing Studio タブで YouTube URL を貼り付けるか、MP4/WAV ファイルをアップロードします。
- 音声抽出 – ツールは自動で yt‑dlp を呼び、動画音声を取得し、Demucs でボーカルを分離します。
- 文字起こし – WhisperX がターゲット言語で高品質な文字起こしを生成します(100+ オプションから選択)。
- 翻訳 – Deep‑Translator を使用して任意の言語へ即時翻訳。
- 声選択 – Edge‑TTS で既存の声を選ぶか、F5‑TTS/CosyVoice で参考サンプルをクローン(ファインチューニング不要)。
- 合成 – TTS の速度・音量・ピッチを調整し、WAV/FLAC/MP3 としてエクスポート。
- 同期 & エクスポート – SRT 字幕を自動生成し、YouTube に再アップロード、またはローカル保存。
高度な機能
- ゼロショット クローン:モデル学習不要、短音声クリップだけで済む。
- カスタム計算タイプ:float32、float16、int8(量子化)を切替えて品質と GPU 使用量のバランスを取る。
- リアルタイムデモ:Live Translation タブでマイクに話し、即座に字幕が表示される。
- API 風インターフェイス:Gradio サーバーを他の Python スクリプトでラップ可能。例は
app/voice_pro.pyを参照。 - コミュニティボイスライブラリ:GitHub Issues を通じて有名人声を追加可能。キュレートリストは
celebrities30sREADMEでホスト。
Voice‑Pro が SaaS を上回る理由
Voice‑Pro はサブスクリプション疲れを解消します: - 無料:コア機能はすべて無料で利用でき、1 分あたりの料金は発生しません。 - オープンソース:TTS パイプラインを自由に変更でき、独自モデルを統合可能。 - GPU 柔軟性:ノート PC でも、クラウド GPU インスタンスでも動作。 - 機能同等性:ElevenLabs などの商用サービスで使用されている TTS エンジンをサポートし、さらに詳細な制御を提供。
トラブルシューティング – クイックフィックス
| 問題 | 修正 |
|---|---|
| CUDA OOM | デノイズレベルを下げるか int8 計算に切り替える |
| Whisper エラー | requirements-voice-gpu.txt あるいは -cpu.txt がインストールされているか確認し、installer_files を削除して configure を再実行 |
| 字幕の同期ズレ | WhisperX タブでタイムスタンプを再調整 |
コミュニティ & 次のステップ
- GitHub Discussions で機能リクエストやサポートの情報を確認。
- 新しいボイスサンプルを追加したり、既存モデルを最適化して貢献。
- Hugging Face パイプラインを追加したり、モジュラー設計のため容易にカスタマイズ。
- 企業向け品質が必要なら、レポジトリをサポートしたり “プレミアム” アップグレード(Azure TTS/Translator)を購入検討。
最後に
Voice‑Pro は高価な AI 吹替サービスに代わる強力で無料な選択肢です。そのモジュラーかつオープンソースの構造により、ベンダーに縛られず、コード・モデル・出力をすべて自分のものにできます。YouTube で 12 言語に吹替したい方、研究室で声クローンを迅速に試作したい方、語学クラスの学生の方まで、Voice‑Pro は数分で高音質オーディオを作るツールを提供します。
今すぐ始めて、AI 音声の未来をプロジェクトに取り入れましょう—一銭も払わずに。
元の記事:
オリジナルを見る