VoxCPM2：2B多语言TTS，支持语音克隆与设计

April 12, 2026

分类: 实用开源项目

标签:

Open Source tts Voice Cloning Multilingual Voice Design

VoxCPM2：无分词器架构革新TTS

下一代语音合成

VoxCPM2代表了文本到语音技术的量子飞跃。这个基于MiniCPM-4骨干的2B参数模型，通过其创新的扩散自回归架构消除了传统分词瓶颈。训练于超过200万小时的多语言语音数据，它在30种语言中提供录音棚品质的48kHz音频，无需语言标签。

✨ 关键创新

🎨 纯文本语音设计

使用自然语言创建全新语音：(年轻女性，温暖温柔的语气，略带微笑)即可生成独特语音，无需参考音频。

🎛️ 可控语音克隆

从短音频片段克隆任意语音，同时控制情感、语速和风格：(稍快一些，欢快)保留音色同时调整表达。

🎙️ 极致克隆保真度

提供参考音频+转录文本，实现像素级完美的语音再现，捕捉音色、节奏和情感的每一个细微差别。

🚀 超快实现

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate("Hello from VoxCPM2!", cfg_value=2.0)
sf.write("output.wav", wav, 48000)

性能：在RTX 4090上使用Nano-vLLM（批处理服务）时RTF约0.13，约8GB显存。

🌍 30种语言覆盖

阿拉伯语、中国方言（8+种）、英语、法语、德语、印地语、日语、韩语、西班牙语、泰语、越南语 + 20种其他语言。

📊 基准测试领先

模型	参数量	EN WER	ZH CER	SIM Score
VoxCPM2	2B	1.84%	0.97%	85.4% (EN)
Qwen3-TTS	1.7B	1.23%	1.22%	77.5%
FishAudio S2	4B	0.99%	0.54%	79.7%

🔧 生产就绪

CLI：voxcpm clone --reference-audio voice.wav
Web Demo：python app.py
LoRA微调：5-10分钟音频即可适配新说话人
Nano-vLLM：高吞吐异步服务

📦 立即开始

pip install voxcpm

完全Apache 2.0许可 - 欢迎商业使用。加入GitHub上10K+星标，体验SOTA TTS！

实时 Playground | Hugging Face权重

原始文章: 查看原文

分享这篇文章