Voice‑Pro: 多言語メディア向けオープンソースAI吹替スタジオ

Voice‑Pro: オールインワン・オープンソースAI吹替スタジオ

AI を活用したメディア制作の世界は急速に拡大しています。テキスト読み上げ(TTS)、ボイスクローン、リアルタイム翻訳、マルチメディア処理を統合した無料のオープンソースソリューションを探しているなら、Voice‑Pro が最適です。

Voice‑Pro とは?

  • オープンソース Web UI:Gradio 5.14.0 をベースに GPL‑3.0 ライセンスでリリース。
  • 音声認識:Whisper、Faster‑Whisper、Whisper‑Timestamped、WhisperX が搭載。
  • ゼロショットボイスクローン:E2‑TTS、F5‑TTS、CosyVoice、Kokoro。
  • テキスト読み上げ:Edge‑TTS(100+ 言語、400+ 声)、Kokoro(HF TTS Arena で #2 ランク)、オプションで有料 Azure TTS。
  • 多言語翻訳:Deep‑Translator(100+ 言語、有料 Azure Translator オプション)。
  • YouTube ダウンローダー (yt‑dlp) + 音声分離 (Demucs) + 字幕生成
  • 対応 OS:Windows(NVIDIA GPU)、macOS、Linux。

利用者層

  • ポッドキャスター & YouTuber:サブスクリプション費用なしで AI 声で吹替エピソードを作成。
  • 教育者 & e‑learning 制作者:動画の多言語字幕と翻訳を生成。
  • 開発者 & 研究者:サンドボックスで最先端 TTS モデルを実験。
  • コンテンツクリエイター:カラオケトラックや AI 生成オーディオブックを制作。

すぐに始める – インストール

前提条件

コンポーネント 最小 推奨
OS Windows 10/11, macOS 10.15+, Ubuntu 20.04+ すべて
GPU CPU の場合は不要、そうでなければ NVIDIA CUDA 12.4 NVIDIA 8 GB+ VRAM
RAM 4 GB 8 GB+
ディスク 20 GB 空き 30 GB+

リポジトリをクローン

git clone https://github.com/abus-aikorea/voice-pro.git
cd voice-pro

設定 (Windows)

configure.bat   # ffmpeg をインストールし、CUDA を確認し、モデルをダウンロード

設定 (macOS / Linux)

chmod +x configure.sh
./configure.sh

ヒント:最初の実行時に大きなモデルチェックポイント(約10 GB)がダウンロードされます。高速なインターネット接続を確保してください。

WebUI の起動

start.bat   # Windows
./start.sh  # macOS / Linux
Gradio インターフェイスは http://127.0.0.1:7870/ で起動します。ブラウザで開いてください。

Voice‑Pro の使い方 – ステップ・バイ・ステップ

  1. 動画または音声のアップロードDubbing Studio タブで YouTube URL を貼り付けるか、MP4/WAV ファイルをアップロードします。
  2. 音声抽出 – ツールは自動で yt‑dlp を呼び、動画音声を取得し、Demucs でボーカルを分離します。
  3. 文字起こし – WhisperX がターゲット言語で高品質な文字起こしを生成します(100+ オプションから選択)。
  4. 翻訳 – Deep‑Translator を使用して任意の言語へ即時翻訳。
  5. 声選択 – Edge‑TTS で既存の声を選ぶか、F5‑TTS/CosyVoice で参考サンプルをクローン(ファインチューニング不要)。
  6. 合成 – TTS の速度・音量・ピッチを調整し、WAV/FLAC/MP3 としてエクスポート。
  7. 同期 & エクスポート – SRT 字幕を自動生成し、YouTube に再アップロード、またはローカル保存。

高度な機能

  • ゼロショット クローン:モデル学習不要、短音声クリップだけで済む。
  • カスタム計算タイプ:float32、float16、int8(量子化)を切替えて品質と GPU 使用量のバランスを取る。
  • リアルタイムデモLive Translation タブでマイクに話し、即座に字幕が表示される。
  • API 風インターフェイス:Gradio サーバーを他の Python スクリプトでラップ可能。例は app/voice_pro.py を参照。
  • コミュニティボイスライブラリ:GitHub Issues を通じて有名人声を追加可能。キュレートリストは celebrities30sREADME でホスト。

Voice‑Pro が SaaS を上回る理由

Voice‑Pro はサブスクリプション疲れを解消します: - 無料:コア機能はすべて無料で利用でき、1 分あたりの料金は発生しません。 - オープンソース:TTS パイプラインを自由に変更でき、独自モデルを統合可能。 - GPU 柔軟性:ノート PC でも、クラウド GPU インスタンスでも動作。 - 機能同等性:ElevenLabs などの商用サービスで使用されている TTS エンジンをサポートし、さらに詳細な制御を提供。

トラブルシューティング – クイックフィックス

問題 修正
CUDA OOM デノイズレベルを下げるか int8 計算に切り替える
Whisper エラー requirements-voice-gpu.txt あるいは -cpu.txt がインストールされているか確認し、installer_files を削除して configure を再実行
字幕の同期ズレ WhisperX タブでタイムスタンプを再調整

コミュニティ & 次のステップ

  • GitHub Discussions で機能リクエストやサポートの情報を確認。
  • 新しいボイスサンプルを追加したり、既存モデルを最適化して貢献。
  • Hugging Face パイプラインを追加したり、モジュラー設計のため容易にカスタマイズ。
  • 企業向け品質が必要なら、レポジトリをサポートしたり “プレミアム” アップグレード(Azure TTS/Translator)を購入検討。

最後に

Voice‑Pro は高価な AI 吹替サービスに代わる強力で無料な選択肢です。そのモジュラーかつオープンソースの構造により、ベンダーに縛られず、コード・モデル・出力をすべて自分のものにできます。YouTube で 12 言語に吹替したい方、研究室で声クローンを迅速に試作したい方、語学クラスの学生の方まで、Voice‑Pro は数分で高音質オーディオを作るツールを提供します。

今すぐ始めて、AI 音声の未来をプロジェクトに取り入れましょう—一銭も払わずに。

この記事を共有