Voice-Pro: オープンソースのオールインワンAIオーディオ＆ダビングスイート

クリエイターや開発者にとって、現在のAIオーディオツールの状況は断片的です。YouTubeダウンローダー、別のボーカル分離ツール、文字起こしサービス、音声クローンプラットフォームを行き来することがよくあります。Voice-Proは、これらの重要なタスクを単一のまとまりのあるGradioベースのWebUIに統合することで、これを変えます。

もともとは商用プロジェクトでしたが、開発者は最近コードベース全体をオープンソース化し、ElevenLabsやDescriptのようなサブスクリプション重視のプラットフォームに代わる、強力で無料の代替手段を提供しています。

Voice-Proとは？

Voice-Proは、マルチメディアコンテンツ作成のパイプライン全体を処理する「ダビングスタジオ」として設計されています。ポッドキャスターがコンテンツを複数の言語に翻訳したい場合でも、自動動画処理パイプラインを構築している開発者でも、このツールは現在利用可能な最高のオープンソースモデルへの統一されたインターフェースを提供します。

中核機能：

音声抽出： 内蔵のyt-dlpサポートにより、YouTubeコンテンツを直接ダウンロードして処理できます。
ボーカル分離： Demucsを使用して、バックグラウンドミュージックからボーカルをきれいに分離します。高品質な音声クローンに不可欠です。
音声認識（STT）： Faster-Whisper、Whisper-Timestamped、WhisperXなど、さまざまなWhisper実装をサポートし、高精度で単語レベルの文字起こしを実現します。
ゼロショット音声クローン： F5-TTS、E2-TTS、CosyVoiceなどの最先端モデルを搭載しており、最小限の参照音声で音声をクローンできます。
テキスト読み上げ（TTS）： 高品質で自然な音声を提供するEdge-TTSと、現在HuggingFaceアリーナで話題の高性能TTSモデルkokoroが含まれています。
翻訳： 統合されたDeep-Translatorにより、100以上の言語で即座に多言語対応できます。

開発者が注目すべき理由

分単位で料金が発生するSaaSプラットフォームとは異なり、Voice-Proはセルフホスト型のソリューションです。NVIDIA GPU（少なくとも4GB～8GBのVRAM）をお持ちであれば、APIコストやデータプライバシーの問題を心配することなく、これらのモデルをローカルで実行できます。

技術スタックのハイライト：

フレームワーク： Python 3.10.15とGradio 5.14.0上に構築。
計算： CUDA 12.4向けに最適化されており、音声クローンや文字起こしなどの負荷の高いタスクで高速な推論を保証。
拡張性： オープンソースであるため、start-voice.pyやone_click.pyスクリプトを変更して、独自のカスタムモデルやファインチューニングされた重みを統合できます。

はじめに

インストールはWindowsユーザー向けに「ワンクリック」で行えるように設計されていますが、LinuxやMac環境でも使用できます。

リポジトリをクローン：

git clone https://github.com/abus-aikorea/voice-pro.git

環境を設定： configure.bat（Linux/Macの場合はconfigure.sh）を実行します。このスクリプトは、Git、FFmpeg、必要なCUDA依存関係のセットアップという面倒な作業を処理します。
UIを起動： start.batを実行します。初回起動時には、アプリケーションは必要なモデルの重み（9GBのCosyVoiceモデルなど）をダウンロードするため、安定したインターネット接続を確保してください。

トラブルシューティングと最適化

CUDAメモリ不足（OOM）： メモリ制限に達した場合は、Denoiseレベルを0または1に設定してみてください。さらに、floatの代わりにint計算タイプを使用すると、わずかな品質低下と引き換えにVRAM使用量を大幅に削減できます。
字幕の品質： 文字起こしが期待通りでない場合は、モデルサイズが重要であることを覚えておいてください。largeモデルは最高の精度を提供しますが、より多くの計算リソースを必要とします。コンシューマー向けハードウェアで長時間のコンテンツを処理する場合は、mediumまたはsmallモデルを試してみてください。

最後に

Voice-Proは、オープンソースAIコミュニティの最良の部分を体現しています。F5-TTSやWhisperXのような複雑なモデルをユーザーフレンドリーなWebUIにラップすることで、高品質なコンテンツ制作への参入障壁を下げています。個人プロジェクトで使用する場合でも、独自のAI搭載アプリケーションのベースとして使用する場合でも、探索する価値のあるリポジトリです。

プロジェクトのGitHubをチェックして、貢献したり最新のアップデートを確認したりしてください。

ソース

abus-aikorea/voice-pro: クリエイターと開発者のためのGradio WebUI。主要なTTS（Edge-TTS、kokoro）とゼロショット音声クローン（E2 & F5-TTS、CosyVoice）を特徴とし、Whisper音声処理、YouTubeダウンロード、Demucsボーカル分離、多言語翻訳を備えています。