VoxCPM2:2B多语言TTS,支持语音克隆与设计
VoxCPM2:无分词器架构革新TTS
下一代语音合成
VoxCPM2代表了文本到语音技术的量子飞跃。这个基于MiniCPM-4骨干的2B参数模型,通过其创新的扩散自回归架构消除了传统分词瓶颈。训练于超过200万小时的多语言语音数据,它在30种语言中提供录音棚品质的48kHz音频,无需语言标签。
✨ 关键创新
🎨 纯文本语音设计
使用自然语言创建全新语音:(年轻女性,温暖温柔的语气,略带微笑)即可生成独特语音,无需参考音频。
🎛️ 可控语音克隆
从短音频片段克隆任意语音,同时控制情感、语速和风格:(稍快一些,欢快)保留音色同时调整表达。
🎙️ 极致克隆保真度
提供参考音频+转录文本,实现像素级完美的语音再现,捕捉音色、节奏和情感的每一个细微差别。
🚀 超快实现
from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate("Hello from VoxCPM2!", cfg_value=2.0)
sf.write("output.wav", wav, 48000)
性能:在RTX 4090上使用Nano-vLLM(批处理服务)时RTF约0.13,约8GB显存。
🌍 30种语言覆盖
阿拉伯语、中国方言(8+种)、英语、法语、德语、印地语、日语、韩语、西班牙语、泰语、越南语 + 20种其他语言。
📊 基准测试领先
| 模型 | 参数量 | EN WER | ZH CER | SIM Score |
|---|---|---|---|---|
| VoxCPM2 | 2B | 1.84% | 0.97% | 85.4% (EN) |
| Qwen3-TTS | 1.7B | 1.23% | 1.22% | 77.5% |
| FishAudio S2 | 4B | 0.99% | 0.54% | 79.7% |
🔧 生产就绪
- CLI:
voxcpm clone --reference-audio voice.wav - Web Demo:
python app.py - LoRA微调:5-10分钟音频即可适配新说话人
- Nano-vLLM:高吞吐异步服务
📦 立即开始
pip install voxcpm
完全Apache 2.0许可 - 欢迎商业使用。加入GitHub上10K+星标,体验SOTA TTS!
原始文章:
查看原文