Miso TTS 8B:高品質なオープンソース音声合成モデル
Miso TTS 8Bは、80億パラメータを備えた最先端のオープンソース音声合成モデルで、高度に感情的な音声生成と声のクローン作成機能を提供します。
Miso Labsは、AI生成音声の可能性の限界を押し広げるオープンソースの音声合成モデル、Miso TTS 8Bをリリースしました。80億のパラメータを持つこのモデルは、会話型AIからコンテンツ作成まで、さまざまなアプリケーションに使用できる、非常に感情豊かで自然な音声を生成するように設計されています。
Miso TTS 8Bの特別な点は?
Miso TTS 8Bは、単なるTTSモデルではありません。大規模なバックボーントランスフォーマーと小型のオーディオデコーダーを組み合わせた洗練されたアーキテクチャに基づいて構築されており、表現力豊かで文脈を認識した音声を生成できます。このモデルはSesame CSMアーキテクチャに触発され、RVQ(Residual Vector Quantization)を使用してテキスト入力から高品質なオーディオコードを生成します。
主な特徴:
- 80億パラメータ:モデルの大規模サイズにより、音声の微妙なニュアンスを捉えることができ、利用可能な中で最も表現力豊かなTTSモデルの1つとなっています。
- 声のクローン作成:Miso TTSは、事前の音声を条件として声をクローンできるため、一貫した話者識別が必要なアプリケーションに最適です。
- 会話の文脈:モデルは、テキストとオーディオのトークンをインターリーブして受け取ることができ、会話の履歴に自然に適合する音声を生成できます。
- 透かし:生成された音声は、デフォルトでSilentCipherを使用して透かしが入れられ、悪用やなりすましを防ぐのに役立ちます。
アーキテクチャの詳細
Miso TTS 8Bは、2つのトランスフォーマーコンポーネントを使用しています。
バックボーントランスフォーマー(80億パラメータ):この大規模モデルは、テキストとオーディオフレームの埋め込みを消費し、インターリーブされたシーケンスを処理して文脈を理解し、適切な音声パターンを生成します。
オーディオデコーダー(3億パラメータ):各フレーム内で高次のオーディオコードブックを自己回帰的に予測し、バックボーンからの出力を洗練する小型のトランスフォーマーです。
このモデルは、32のオーディオコードブックと2,051のオーディオトークンの語彙を持つMimiオーディオトークナイザーを使用しています。テキストの語彙は128,256トークンで、最大シーケンス長は2,048トークンです。
はじめに
Miso TTS 8Bをローカルで実行するには、bfloat16推論のために少なくとも24GBのVRAMを搭載したGPUが必要です。始め方は以下の通りです。
インストール
まず、uvをまだインストールしていない場合はインストールします。
curl -LsSf https://astral.sh/uv/install.sh | sh
次に、リポジトリをクローンして環境をセットアップします。
git clone https://github.com/MisoLabsAI/MisoTTS.git
cd MisoTTS
uv sync --python 3.10
source .venv/bin/activate
基本的な使い方
サンプルスクリプトを実行して会話を生成します。
uv run python run_misotts.py
これにより、リポジトリルートにfull_conversation.wavというファイルが作成されます。
Python API
より細かい制御のために、Python APIを直接使用することもできます。
import torch
import torchaudio
from generator import load_miso_8b
device = "cuda" if torch.cuda.is_available() else "cpu"
generator = load_miso_8b(
device=device,
model_path_or_repo_id="MisoLabs/MisoTTS",
)
audio = generator.generate(
text="Hello from Miso.",
speaker=0,
context=[],
max_audio_length_ms=10_000,
)
torchaudio.save("miso.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)
声のクローン作成
声をクローンするには、プロンプトとなる音声セグメントを提供します。
import torchaudio
from generator import Segment, load_miso_8b
generator = load_miso_8b(device="cuda")
prompt_audio, sample_rate = torchaudio.load("prompt.wav")
prompt_audio = torchaudio.functional.resample(
prompt_audio.squeeze(0),
orig_freq=sample_rate,
new_freq=generator.sample_rate,
)
context = [
Segment(
speaker=0,
text="This is the transcript for the prompt audio.",
audio=prompt_audio,
)
]
audio = generator.generate(
text="This is the next sentence to synthesize.",
speaker=0,
context=context,
max_audio_length_ms=10_000,
)
システム要件
Miso TTS 8Bは大規模なモデルであり、かなりのハードウェアが必要です。
| 精度 | 重み(概算) | 推奨VRAM | GPUの例 |
|---|---|---|---|
| bfloat16/fp16 | ~16 GB | 24 GB | RTX 3090/4090, A5000, L4 |
| float32 | ~33 GB | 40 GB+ | A100 40 GB, A6000 48 GB, H100 |
- CPU:推論は実行できますが遅いです。bfloat16で少なくとも約20 GBのRAM、float32で約40 GBのRAMを確保してください。
- ディスク:初回実行時には、合計約30~40 GB(モデルチェックポイント、Mimiコーデック、SilentCipher透かし、Llama 3.2トークナイザー)をダウンロードします。
安全性と倫理的な使用
Miso Labsは、この技術の責任ある使用を強調しています。このモデルは、人を装ったり、欺瞞的な音声を作成したり、詐欺を犯したり、有害なコンテンツを生成したりするために使用してはなりません。生成された音声にはデフォルトで透かしが入れられており、このモデルをデプロイする場合は、独自のプライベート透かしキーを使用する必要があります。
結論
Miso TTS 8Bは、オープンソースの音声合成技術における重要な前進を表しています。高いパラメータ数、声のクローン作成機能、会話の文脈の組み合わせにより、開発者や研究者にとって強力なツールとなっています。かなりのハードウェアが必要ですが、出力の品質は投資する価値があります。
詳細については、Miso Labsのウェブサイトをご覧いただくか、Hugging Faceでモデルをチェックしてください。
ソース
MisoLabsAI/MisoTTS: Miso TTS is an 8 billion, highly emotive text-to-speech model