Miso TTS 8B：高质量开源文本转语音模型

Miso Labs 发布了 Miso TTS 8B，这是一款开源文本转语音模型，突破了 AI 生成语音的可能性边界。凭借 80 亿参数，该模型旨在生成高度情感化、自然逼真的语音，适用于从对话式 AI 到内容创作等多种应用场景。

Miso TTS 8B 有何特别之处？

Miso TTS 8B 并非普通的 TTS 模型。它基于复杂的架构构建，结合了大型骨干 Transformer 和较小的音频解码器，能够生成既富有表现力又具备上下文感知能力的语音。该模型受 Sesame CSM 架构启发，使用 RVQ（残差向量量化）从文本输入生成高质量音频编码。

主要特性：

80 亿参数：模型的大规模使其能够捕捉语音中的细微差别，成为目前最具表现力的 TTS 模型之一。
声音克隆：Miso TTS 可根据先前的音频条件进行声音克隆，非常适合需要一致说话者身份的应用。
对话上下文：模型可处理交错的文本和音频令牌，生成自然融入对话历史的语音。
水印技术：生成的音频默认使用 SilentCipher 添加水印，有助于防止滥用和冒充。

架构深度解析

Miso TTS 8B 使用两个 Transformer 组件：

骨干 Transformer（80 亿参数）：此大型模型处理文本和音频帧嵌入，通过交错序列理解上下文并生成合适的语音模式。
音频解码器（3 亿参数）：一个较小的 Transformer，在每个帧内自回归预测高阶音频码本，优化骨干网络的输出。

模型使用包含 32 个音频码本的 Mimi 音频分词器，音频令牌词汇量为 2,051 个。文本词汇量为 128,256 个令牌，最大序列长度为 2,048 个令牌。

快速入门

要在本地运行 Miso TTS 8B，您需要至少 24GB VRAM 的 GPU 以支持 bfloat16 推理。以下是入门步骤：

安装

首先，如果尚未安装 uv，请执行：

curl -LsSf https://astral.sh/uv/install.sh | sh

然后克隆仓库并设置环境：

git clone https://github.com/MisoLabsAI/MisoTTS.git
cd MisoTTS
uv sync --python 3.10
source .venv/bin/activate

基本使用

运行示例脚本生成对话：

uv run python run_misotts.py

这将在仓库根目录下创建名为 full_conversation.wav 的文件。

Python API

如需更多控制，可直接使用 Python API：

import torch
import torchaudio
from generator import load_miso_8b

device = "cuda" if torch.cuda.is_available() else "cpu"
generator = load_miso_8b(
    device=device,
    model_path_or_repo_id="MisoLabs/MisoTTS",
)

audio = generator.generate(
    text="Hello from Miso.",
    speaker=0,
    context=[],
    max_audio_length_ms=10_000,
)

torchaudio.save("miso.wav", audio.unsqueeze(0).cpu(), generator.sample_rate)

声音克隆

要克隆声音，请提供提示音频片段：

import torchaudio
from generator import Segment, load_miso_8b

generator = load_miso_8b(device="cuda")

prompt_audio, sample_rate = torchaudio.load("prompt.wav")
prompt_audio = torchaudio.functional.resample(
    prompt_audio.squeeze(0),
    orig_freq=sample_rate,
    new_freq=generator.sample_rate,
)

context = [
    Segment(
        speaker=0,
        text="This is the transcript for the prompt audio.",
        audio=prompt_audio,
    )
]

audio = generator.generate(
    text="This is the next sentence to synthesize.",
    speaker=0,
    context=context,
    max_audio_length_ms=10_000,
)

系统要求

Miso TTS 8B 是一个大型模型，需要较高的硬件配置：

精度	权重（约）	推荐 VRAM	示例 GPU
bfloat16/fp16	~16 GB	24 GB	RTX 3090/4090, A5000, L4
float32	~33 GB	40 GB+	A100 40 GB, A6000 48 GB, H100

CPU：推理可运行但速度较慢。bfloat16 至少需要约 20 GB RAM，float32 需要约 40 GB。
磁盘：首次运行需下载约 30–40 GB（模型检查点、Mimi 编解码器、SilentCipher 水印器、Llama 3.2 分词器）。

安全与伦理使用

Miso Labs 强调负责任地使用此技术。该模型不得用于冒充他人、制作欺骗性音频、实施欺诈或生成有害内容。生成的音频默认添加水印，如果您部署此模型，应使用自己的私有水印密钥。

结论

Miso TTS 8B 代表了开源文本转语音技术的重大进步。其高参数数量、声音克隆能力和对话上下文处理的结合，使其成为开发者和研究人员的强大工具。虽然需要较高的硬件配置，但输出质量完全值得投入。

更多信息，请访问 Miso Labs 网站或查看 Hugging Face 上的模型。

来源

MisoLabsAI/MisoTTS: Miso TTS 是一个 80 亿参数、高度情感化的文本转语音模型