Voice-Pro: オープンソースのオールインワンAIオーディオ&ダビングスイート
Voice-Proは、最先端の音声クローン、文字起こし、翻訳ツールを1つのワークフローに統合した、強力なオープンソースのGradioベースWebUIです。
クリエイターや開発者にとって、現在のAIオーディオツールの状況は断片的です。YouTubeダウンローダー、別のボーカル分離ツール、文字起こしサービス、音声クローンプラットフォームを行き来することがよくあります。Voice-Proは、これらの重要なタスクを単一のまとまりのあるGradioベースのWebUIに統合することで、これを変えます。
もともとは商用プロジェクトでしたが、開発者は最近コードベース全体をオープンソース化し、ElevenLabsやDescriptのようなサブスクリプション重視のプラットフォームに代わる、強力で無料の代替手段を提供しています。
Voice-Proとは?
Voice-Proは、マルチメディアコンテンツ作成のパイプライン全体を処理する「ダビングスタジオ」として設計されています。ポッドキャスターがコンテンツを複数の言語に翻訳したい場合でも、自動動画処理パイプラインを構築している開発者でも、このツールは現在利用可能な最高のオープンソースモデルへの統一されたインターフェースを提供します。
中核機能:
- 音声抽出: 内蔵の
yt-dlpサポートにより、YouTubeコンテンツを直接ダウンロードして処理できます。 - ボーカル分離: Demucsを使用して、バックグラウンドミュージックからボーカルをきれいに分離します。高品質な音声クローンに不可欠です。
- 音声認識(STT):
Faster-Whisper、Whisper-Timestamped、WhisperXなど、さまざまなWhisper実装をサポートし、高精度で単語レベルの文字起こしを実現します。 - ゼロショット音声クローン: F5-TTS、E2-TTS、CosyVoiceなどの最先端モデルを搭載しており、最小限の参照音声で音声をクローンできます。
- テキスト読み上げ(TTS): 高品質で自然な音声を提供する
Edge-TTSと、現在HuggingFaceアリーナで話題の高性能TTSモデルkokoroが含まれています。 - 翻訳: 統合された
Deep-Translatorにより、100以上の言語で即座に多言語対応できます。
開発者が注目すべき理由
分単位で料金が発生するSaaSプラットフォームとは異なり、Voice-Proはセルフホスト型のソリューションです。NVIDIA GPU(少なくとも4GB~8GBのVRAM)をお持ちであれば、APIコストやデータプライバシーの問題を心配することなく、これらのモデルをローカルで実行できます。
技術スタックのハイライト:
- フレームワーク: Python 3.10.15とGradio 5.14.0上に構築。
- 計算: CUDA 12.4向けに最適化されており、音声クローンや文字起こしなどの負荷の高いタスクで高速な推論を保証。
- 拡張性: オープンソースであるため、
start-voice.pyやone_click.pyスクリプトを変更して、独自のカスタムモデルやファインチューニングされた重みを統合できます。
はじめに
インストールはWindowsユーザー向けに「ワンクリック」で行えるように設計されていますが、LinuxやMac環境でも使用できます。
- リポジトリをクローン:
git clone https://github.com/abus-aikorea/voice-pro.git - 環境を設定:
configure.bat(Linux/Macの場合はconfigure.sh)を実行します。このスクリプトは、Git、FFmpeg、必要なCUDA依存関係のセットアップという面倒な作業を処理します。 - UIを起動:
start.batを実行します。初回起動時には、アプリケーションは必要なモデルの重み(9GBのCosyVoiceモデルなど)をダウンロードするため、安定したインターネット接続を確保してください。
トラブルシューティングと最適化
- CUDAメモリ不足(OOM): メモリ制限に達した場合は、
Denoiseレベルを0または1に設定してみてください。さらに、floatの代わりにint計算タイプを使用すると、わずかな品質低下と引き換えにVRAM使用量を大幅に削減できます。 - 字幕の品質: 文字起こしが期待通りでない場合は、モデルサイズが重要であることを覚えておいてください。
largeモデルは最高の精度を提供しますが、より多くの計算リソースを必要とします。コンシューマー向けハードウェアで長時間のコンテンツを処理する場合は、mediumまたはsmallモデルを試してみてください。
最後に
Voice-Proは、オープンソースAIコミュニティの最良の部分を体現しています。F5-TTSやWhisperXのような複雑なモデルをユーザーフレンドリーなWebUIにラップすることで、高品質なコンテンツ制作への参入障壁を下げています。個人プロジェクトで使用する場合でも、独自のAI搭載アプリケーションのベースとして使用する場合でも、探索する価値のあるリポジトリです。
プロジェクトのGitHubをチェックして、貢献したり最新のアップデートを確認したりしてください。