Edge-TTS: Pythonによる無料のテキスト読み上げ

Microsoft Edge TTSの力を「edge-tts」Pythonライブラリで活用する

テキスト読み上げ(TTS)生成のための汎用的かつ無料のソリューションをお探し の開発者にとって、edge-tts Pythonライブラリは傑出したオープンソースの選択肢です。このプロジェクトはMicrosoft EdgeのオンラインTTSサービスを巧みに利用しており、特別なハードウェアやWindowsへのOS依存、高価なAPIキーを必要とせずに、Pythonアプリケーションから直接テキストを音声に変換することができます。

簡単なインストールと使用方法

edge-tts の利用開始は非常に簡単です。pip install edge-tts というシンプルなコマンドを実行するだけで、開発環境にその機能を取り込めます。主にコマンドラインインターフェースを利用する予定の方には、pipx install edge-tts という代替方法が推奨されます。

このライブラリは、迅速な音声生成のための使いやすいコマンドラインインターフェースを提供します。以下のようなコマンドで、音声ファイルと対応する字幕ファイルを簡単に作成できます。

$ edge-tts --text "Hello, world!" --write-media hello.mp3 --write-subtitles hello.srt

即時再生したい場合は、edge-playback コマンドを使用できます。

$ edge-playback --text "Hello, world!"

なお、edge-playback はWindowsシステムを除き、再生に mpv コマンドラインプレーヤーが必要です。

カスタマイズと音声選択

edge-tts の真価は、その柔軟性にあります。--voice オプションを使用することで、Microsoftのサービスがサポートする豊富な音声の中から簡単に切り替えられます。利用可能な音声とその特性を確認するには、単に以下を実行してください。

$ edge-tts --list-voices

このコマンドは、音声の名前、性別、コンテンツカテゴリ、声の個性など、包括的なリストを出力し、ニーズに最適な音声プロファイルを選択できるようにします。

さらに、音声出力の微調整も容易に行えます。音声の速度、音量、ピッチなどのパラメータは、それぞれ --rate--volume--pitch オプションを使用して調整できます。負の値を扱う際は注意が必要で、コマンドラインによる誤解釈を防ぐために、パーセント記号(例: --rate=-50%)を付加する必要があります。

プログラムからの統合

コマンドラインでの利用にとどまらず、edge-tts はPythonプロジェクトへのシームレスな統合を念頭に設計されています。開発者はモジュールを直接コードにインポートして利用でき、インタラクティブなボットからコンテンツ作成ツールまで、幅広いアプリケーションで動的なテキスト読み上げ機能を構築する可能性を広げます。

hass-edge-ttsPodcastfy といった他のプロジェクトは、既に edge-tts モジュールの力を活用しており、開発者コミュニティ内での実用性と広範な採用を示しています。

その堅牢な機能、使いやすさ、そしてオープンソースという性質により、edge-tts は、高品質でアクセスしやすいテキスト読み上げ機能をPythonプロジェクトに組み込みたいと考えるすべての人にとって、貴重なツールとして際立っています。

この記事を共有