Miso TTS 8B：高品質なオープンソース音声合成モデル | AIBit - オープンソースプロジェクトの発見

Miso Labsは、AI生成音声の可能性の限界を押し広げるオープンソースの音声合成モデル、Miso TTS 8Bをリリースしました。80億のパラメータを持つこのモデルは、会話型AIからコンテンツ作成まで、さまざまなアプリケーションに使用できる、非常に感情豊かで自然な音声を生成するように設計されています。

Miso TTS 8Bの特別な点は？

Miso TTS 8Bは、単なるTTSモデルではありません。大規模なバックボーントランスフォーマーと小型のオーディオデコーダーを組み合わせた洗練されたアーキテクチャに基づいて構築されており、表現力豊かで文脈を認識した音声を生成できます。このモデルはSesame CSMアーキテクチャに触発され、RVQ（Residual Vector Quantization）を使用してテキスト入力から高品質なオーディオコードを生成します。

主な特徴：

80億パラメータ：モデルの大規模サイズにより、音声の微妙なニュアンスを捉えることができ、利用可能な中で最も表現力豊かなTTSモデルの1つとなっています。
声のクローン作成：Miso TTSは、事前の音声を条件として声をクローンできるため、一貫した話者識別が必要なアプリケーションに最適です。
会話の文脈：モデルは、テキストとオーディオのトークンをインターリーブして受け取ることができ、会話の履歴に自然に適合する音声を生成できます。
透かし：生成された音声は、デフォルトでSilentCipherを使用して透かしが入れられ、悪用やなりすましを防ぐのに役立ちます。

アーキテクチャの詳細

Miso TTS 8Bは、2つのトランスフォーマーコンポーネントを使用しています。

バックボーントランスフォーマー（80億パラメータ）：この大規模モデルは、テキストとオーディオフレームの埋め込みを消費し、インターリーブされたシーケンスを処理して文脈を理解し、適切な音声パターンを生成します。
オーディオデコーダー（3億パラメータ）：各フレーム内で高次のオーディオコードブックを自己回帰的に予測し、バックボーンからの出力を洗練する小型のトランスフォーマーです。

このモデルは、32のオーディオコードブックと2,051のオーディオトークンの語彙を持つMimiオーディオトークナイザーを使用しています。テキストの語彙は128,256トークンで、最大シーケンス長は2,048トークンです。

はじめに

Miso TTS 8Bをローカルで実行するには、bfloat16推論のために少なくとも24GBのVRAMを搭載したGPUが必要です。始め方は以下の通りです。

インストール

まず、uvをまだインストールしていない場合はインストールします。

curl -LsSf https://astral.sh/uv/install.sh | sh

次に、リポジトリをクローンして環境をセットアップします。

git clone https://github.com/MisoLabsAI/MisoTTS.git
cd MisoTTS
uv sync --python 3.10
source .venv/bin/activate

基本的な使い方

サンプルスクリプトを実行して会話を生成します。

uv run python run_misotts.py

これにより、リポジトリルートにfull_conversation.wavというファイルが作成されます。

Python API

より細かい制御のために、Python APIを直接使用することもできます。

import torch
import torchaudio
from generator import load_miso_8b

device = "cuda" if torch.cuda.is_available() else "cpu"
generator = load_miso_8b(
    device=device,
    model_path_or_repo_id="MisoLabs/MisoTTS",
)

audio = generator.generate(
    text="Hello from Miso.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("miso.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

声のクローン作成

声をクローンするには、プロンプトとなる音声セグメントを提供します。

import torchaudio
from generator import Segment, load_miso_8b

generator = load_miso_8b(device="cuda")

prompt_audio, sample_rate = torchaudio.load("prompt.wav")
prompt_audio = torchaudio.functional.resample(
    prompt_audio.squeeze(0),
    orig_freq=sample_rate,
    new_freq=generator.sample_rate,
)

context = [
    Segment(
        speaker=0,
        text="This is the transcript for the prompt audio.",
        audio=prompt_audio,
    )
]

audio = generator.generate(
    text="This is the next sentence to synthesize.",
    speaker=0,
    context=context,
    max_audio_length_ms=10_000,
)

システム要件

Miso TTS 8Bは大規模なモデルであり、かなりのハードウェアが必要です。

精度	重み（概算）	推奨VRAM	GPUの例
bfloat16/fp16	~16 GB	24 GB	RTX 3090/4090, A5000, L4
float32	~33 GB	40 GB+	A100 40 GB, A6000 48 GB, H100

CPU：推論は実行できますが遅いです。bfloat16で少なくとも約20 GBのRAM、float32で約40 GBのRAMを確保してください。
ディスク：初回実行時には、合計約30～40 GB（モデルチェックポイント、Mimiコーデック、SilentCipher透かし、Llama 3.2トークナイザー）をダウンロードします。

安全性と倫理的な使用

Miso Labsは、この技術の責任ある使用を強調しています。このモデルは、人を装ったり、欺瞞的な音声を作成したり、詐欺を犯したり、有害なコンテンツを生成したりするために使用してはなりません。生成された音声にはデフォルトで透かしが入れられており、このモデルをデプロイする場合は、独自のプライベート透かしキーを使用する必要があります。

結論

Miso TTS 8Bは、オープンソースの音声合成技術における重要な前進を表しています。高いパラメータ数、声のクローン作成機能、会話の文脈の組み合わせにより、開発者や研究者にとって強力なツールとなっています。かなりのハードウェアが必要ですが、出力の品質は投資する価値があります。

詳細については、Miso Labsのウェブサイトをご覧いただくか、Hugging Faceでモデルをチェックしてください。

ソース

MisoLabsAI/MisoTTS: Miso TTS is an 8 billion, highly emotive text-to-speech model