Voice‑Pro: 多言語メディア向けオープンソースAI吹替スタジオ

January 16, 2026

タグ:

Open Source text-to-speech Voice Cloning multilingual translation AI webui

Voice‑Pro: オールインワン・オープンソースAI吹替スタジオ

AI を活用したメディア制作の世界は急速に拡大しています。テキスト読み上げ（TTS）、ボイスクローン、リアルタイム翻訳、マルチメディア処理を統合した無料のオープンソースソリューションを探しているなら、Voice‑Pro が最適です。

Voice‑Pro とは?

オープンソース Web UI：Gradio 5.14.0 をベースに GPL‑3.0 ライセンスでリリース。
音声認識：Whisper、Faster‑Whisper、Whisper‑Timestamped、WhisperX が搭載。
ゼロショットボイスクローン：E2‑TTS、F5‑TTS、CosyVoice、Kokoro。
テキスト読み上げ：Edge‑TTS（100+ 言語、400+ 声）、Kokoro（HF TTS Arena で #2 ランク）、オプションで有料 Azure TTS。
多言語翻訳：Deep‑Translator（100+ 言語、有料 Azure Translator オプション）。
YouTube ダウンローダー (yt‑dlp) + 音声分離 (Demucs) + 字幕生成。
対応 OS：Windows（NVIDIA GPU）、macOS、Linux。

利用者層

ポッドキャスター & YouTuber：サブスクリプション費用なしで AI 声で吹替エピソードを作成。
教育者 & e‑learning 制作者：動画の多言語字幕と翻訳を生成。
開発者 & 研究者：サンドボックスで最先端 TTS モデルを実験。
コンテンツクリエイター：カラオケトラックや AI 生成オーディオブックを制作。

すぐに始める – インストール

前提条件

コンポーネント	最小	推奨
OS	Windows 10/11, macOS 10.15+, Ubuntu 20.04+	すべて
GPU	CPU の場合は不要、そうでなければ NVIDIA CUDA 12.4	NVIDIA 8 GB+ VRAM
RAM	4 GB	8 GB+
ディスク	20 GB 空き	30 GB+

リポジトリをクローン

git clone https://github.com/abus-aikorea/voice-pro.git
cd voice-pro

設定 (Windows)

configure.bat   # ffmpeg をインストールし、CUDA を確認し、モデルをダウンロード

設定 (macOS / Linux)

chmod +x configure.sh
./configure.sh

ヒント：最初の実行時に大きなモデルチェックポイント（約10 GB）がダウンロードされます。高速なインターネット接続を確保してください。

WebUI の起動

start.bat   # Windows

./start.sh  # macOS / Linux

Gradio インターフェイスは http://127.0.0.1:7870/ で起動します。ブラウザで開いてください。

Voice‑Pro の使い方 – ステップ・バイ・ステップ

動画または音声のアップロード – Dubbing Studio タブで YouTube URL を貼り付けるか、MP4/WAV ファイルをアップロードします。
音声抽出 – ツールは自動で yt‑dlp を呼び、動画音声を取得し、Demucs でボーカルを分離します。
文字起こし – WhisperX がターゲット言語で高品質な文字起こしを生成します（100+ オプションから選択）。
翻訳 – Deep‑Translator を使用して任意の言語へ即時翻訳。
声選択 – Edge‑TTS で既存の声を選ぶか、F5‑TTS/CosyVoice で参考サンプルをクローン（ファインチューニング不要）。
合成 – TTS の速度・音量・ピッチを調整し、WAV/FLAC/MP3 としてエクスポート。
同期 & エクスポート – SRT 字幕を自動生成し、YouTube に再アップロード、またはローカル保存。

高度な機能

ゼロショットクローン：モデル学習不要、短音声クリップだけで済む。
カスタム計算タイプ：float32、float16、int8（量子化）を切替えて品質と GPU 使用量のバランスを取る。
リアルタイムデモ：Live Translation タブでマイクに話し、即座に字幕が表示される。
API 風インターフェイス：Gradio サーバーを他の Python スクリプトでラップ可能。例は app/voice_pro.py を参照。
コミュニティボイスライブラリ：GitHub Issues を通じて有名人声を追加可能。キュレートリストは celebrities30sREADME でホスト。

Voice‑Pro はサブスクリプション疲れを解消します： - 無料：コア機能はすべて無料で利用でき、1 分あたりの料金は発生しません。 - オープンソース：TTS パイプラインを自由に変更でき、独自モデルを統合可能。 - GPU 柔軟性：ノート PC でも、クラウド GPU インスタンスでも動作。 - 機能同等性：ElevenLabs などの商用サービスで使用されている TTS エンジンをサポートし、さらに詳細な制御を提供。

トラブルシューティング – クイックフィックス

問題	修正
CUDA OOM	デノイズレベルを下げるか int8 計算に切り替える
Whisper エラー	`requirements-voice-gpu.txt` あるいは `-cpu.txt` がインストールされているか確認し、`installer_files` を削除して `configure` を再実行
字幕の同期ズレ	WhisperX タブでタイムスタンプを再調整

コミュニティ & 次のステップ

GitHub Discussions で機能リクエストやサポートの情報を確認。
新しいボイスサンプルを追加したり、既存モデルを最適化して貢献。
Hugging Face パイプラインを追加したり、モジュラー設計のため容易にカスタマイズ。
企業向け品質が必要なら、レポジトリをサポートしたり “プレミアム” アップグレード（Azure TTS/Translator）を購入検討。

最後に

Voice‑Pro は高価な AI 吹替サービスに代わる強力で無料な選択肢です。そのモジュラーかつオープンソースの構造により、ベンダーに縛られず、コード・モデル・出力をすべて自分のものにできます。YouTube で 12 言語に吹替したい方、研究室で声クローンを迅速に試作したい方、語学クラスの学生の方まで、Voice‑Pro は数分で高音質オーディオを作るツールを提供します。

今すぐ始めて、AI 音声の未来をプロジェクトに取り入れましょう—一銭も払わずに。

オリジナル記事: オリジナルを表示