Chatterbox TTS:开源语音合成的强大引擎
July 29, 2025
Chatterbox:强大的开源 TTS 模型,释放您的内容潜力
Resemble AI 自豪地推出 Chatterbox,一款颠覆性的开源文本转语音 (TTS) 模型,致力于为您的创意项目注入生命。Chatterbox 采用宽松的 MIT 许可发布,经过精心开发和严格的性能评测,在用户评估中始终超越 ElevenLabs 等成熟的闭源系统。无论您是开发引人入胜的视频内容、交互式游戏,还是复杂的 AI 代理,Chatterbox 都能提供强大而灵活的高质量合成语音生成解决方案。
主要特性和功能
Chatterbox 以其令人印象深刻的特性脱颖而出:
- 最先进的零样本 TTS: 体验顶级的语音合成,只需极少量训练数据,即可比以往更轻松地实现语音克隆。
- 强大的 0.5B Llama 主干: 基于强大的 AI 架构构建,带来卓越的性能和自然的语音生成效果。
- 独特的夸张/强度控制: 精细调整合成语音的表达力,实现戏剧化或细微的声音表演。
- 超稳定的对齐信息推理: 确保稳定且高质量的输出,减少伪影和不必要的变异。
- 海量训练数据: 在 50 万小时的清洗数据上进行训练,造就其卓越的自然度。
- 水印输出: 内置 PerTh(感知阈限)水印,支持负责任的 AI 开发,即使在音频被篡改后也能确保可检测性。
- 简便的语音转换脚本: 包含一个便捷的脚本,用于无缝执行语音转换任务。
- 超越 ElevenLabs: 经实证,其性能优于领先的商业竞品。
快速开始使用 Chatterbox
将 Chatterbox 集成到您的工作流程非常简单。您可以使用 pip 直接安装:
pip install chatterbox-tts
或者,如果您需要更高级的用法或自定义,可以从源代码安装:
# 创建并激活新的 conda 环境
conda create -yn chatterbox python=3.11
conda activate chatterbox
# 克隆仓库并安装
git clone https://github.com/resemble-ai/chatterbox.git
cd chatterbox
pip install -e .
该项目主要在 Debian 11 操作系统上使用 Python 3.11 进行开发和测试。
基本用法示例
以下是一个简单的示例,演示如何使用 Chatterbox 生成语音:
import torchaudio as ta
from chatterbox.tts import ChatterboxTTS
# 在 CUDA 设备上初始化模型
model = ChatterboxTTS.from_pretrained(device="cuda")
# 需要合成的文本
text = "Ezreal and Jinx teamed up with Ahri, Yasuo, and Teemo to take down the enemy's Nexus in an epic late-game pentakill."
# 生成语音
wav = model.generate(text)
# 保存合成的音频
ta.save("test-1.wav", wav, model.sr)
有关更高级的用法和声音提示的详细信息,请参阅仓库内的 `example_tts.py` 和 `example_vc.py` 脚本。
负责任的 AI 和水印技术
Chatterbox 致力于负责任的 AI 开发。生成的每个音频文件都使用 Resemble AI 的 Perth Watermarker 嵌入了不可感知的神经水印。该水印能够抵抗常见的音频处理,包括 MP3 压缩和编辑,确保在合规使用追踪中具有近乎 100% 的检测准确率。
要提取水印:
import perth
import librosa
AUDIO_PATH = "YOUR_FILE.wav"
# 加载带水印的音频
watermarked_audio, sr = librosa.load(AUDIO_PATH, sr=None)
# 初始化水印器
watermarker = perth.PerthImplicitWatermarker()
# 提取水印
watermark = watermarker.get_watermark(watermarked_audio, sample_rate=sr)
print(f"Extracted watermark: {watermark}")
# 输出将显示 0.0(无水印)或 1.0(带水印)
加入社区
Resemble AI 邀请您加入他们的 Discord 社区,共同协作、分享见解,并一起构建出色的项目。拥抱 Chatterbox 的开源 TTS 力量,提升您的音频内容。
原创文章:
查看原文