Fish-Speech:先進的なオープンソースTTSシステム
July 29, 2025
Fish-Speech、OpenAudioへブランド変更:次世代TTSの幕開け
Text-to-Speech(TTS)分野で著名なオープンソースプロジェクト「Fish-Speech」が、この度「OpenAudio」へとブランド名を変更しました。この進化は、OpenAudio S1 および OpenAudio S1-mini を筆頭とする、新たな高性能TTSモデル群の登場を告げる、重要な一歩となります。Fish-Speechの堅牢な基盤を活かし、これらのモデルは品質、パフォーマンス、機能性を向上させ、音声合成における最先端ソリューションとしての地位を確固たるものにします。
OpenAudio(旧Fish-Speech)の主なハイライト:
- 最先端の品質: Seed TTS Eval Metricsによる評価では、OpenAudio S1は英語テキストにおいて単語誤り率(WER)0.008、文字誤り率(CER)0.004という驚異的なパフォーマンスを達成しました。これは、自然な音声生成における最優秀モデルの一つと言えるでしょう。
- TTS-Arena2でトップランク: OpenAudio S1モデルは、テキスト読み上げシステム評価のベンチマークであるTTS-Arena2で第1位を獲得し、その卓越した品質とパフォーマンスを証明しています。
- 高度な音声制御: OpenAudio S1は、基本的なテキスト読み上げ機能を超え、音声出力に対するきめ細やかな制御を可能にします。「(怒り)」「(悲しみ)」「(興奮)」といった感情、「(急ぎの調子で)」「(ささやくように)」といったトーン、さらには「(笑う)」「(くすくす笑う)」といった笑い声や「(ため息をつく)」といった特殊効果を挿入できるため、非常に表現豊かでニュアンスに富んだ音声生成が実現します。
- ゼロショット&フューショットTTS: 本システムは、わずか10~30秒の音声サンプルでボイスクローニングをサポートし、ターゲットとなる声質での高品質なTTS出力を可能にします。この機能により、カスタムボイス合成の参入障壁が大幅に低減されます。
- 多言語・クロスリンガル対応: OpenAudioは、英語、日本語、韓国語、中国語、フランス語、ドイツ語、アラビア語、スペイン語に対応し、多言語テキストをシームレスに処理します。モデルの強力な汎化性能により、音素に依存せず、多様な言語のスクリプトを処理できます。
- 効率的で高速な推論: torch compileで最適化されたモデルは、Nvidia RTX 4090 GPUで約1:7のリアルタイムファクターを達成し、高速で応答性の高い音声生成を実現します。
- ユーザーフレンドリーなインターフェース: OpenAudioは、ブラウザ上で簡単に推論できるGradioベースのWebUIと、Windows、Linux、macOSに対応するデスクトップアプリケーション用PyQt6ベースGUIを提供します。ネイティブ推論サーバーによるデプロイメントも効率化されています。
モデルの提供状況:
- OpenAudio S1: 40億パラメータを持つフラッグシップモデル。fish.audioにて提供。
- OpenAudio S1-mini: 5億パラメータのディスティールド(蒸留)バージョン。コア機能に最適化されており、Hugging Face Spacesにて提供。
両モデルには、出力品質をさらに向上させるためのオンラインRLHF(Reinforcement Learning from Human Feedback)が組み込まれています。強力なコミュニティのサポート、充実したドキュメント、そして多数のコミットやリリースで示される継続的な開発により、OpenAudio(旧Fish-Speech)は、Text-to-Speech技術の最先端に興味を持つすべての方におすすめのプロジェクトです。GitHubでプロジェクトを探索し、貢献したり、その強力な機能を独自のアプリケーションに統合したりしてください。
元の記事:
オリジナルを見る