VoxCPM2:2B多语言TTS,支持语音克隆与设计

VoxCPM2:无分词器架构革新TTS

下一代语音合成

VoxCPM2代表了文本到语音技术的量子飞跃。这个基于MiniCPM-4骨干的2B参数模型,通过其创新的扩散自回归架构消除了传统分词瓶颈。训练于超过200万小时的多语言语音数据,它在30种语言中提供录音棚品质的48kHz音频,无需语言标签。

✨ 关键创新

🎨 纯文本语音设计

使用自然语言创建全新语音:(年轻女性,温暖温柔的语气,略带微笑)即可生成独特语音,无需参考音频。

🎛️ 可控语音克隆

从短音频片段克隆任意语音,同时控制情感、语速和风格:(稍快一些,欢快)保留音色同时调整表达。

🎙️ 极致克隆保真度

提供参考音频+转录文本,实现像素级完美的语音再现,捕捉音色、节奏和情感的每一个细微差别。

🚀 超快实现

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate("Hello from VoxCPM2!", cfg_value=2.0)
sf.write("output.wav", wav, 48000)

性能:在RTX 4090上使用Nano-vLLM(批处理服务)时RTF约0.13,约8GB显存。

🌍 30种语言覆盖

阿拉伯语、中国方言(8+种)、英语、法语、德语、印地语、日语、韩语、西班牙语、泰语、越南语 + 20种其他语言。

📊 基准测试领先

模型 参数量 EN WER ZH CER SIM Score
VoxCPM2 2B 1.84% 0.97% 85.4% (EN)
Qwen3-TTS 1.7B 1.23% 1.22% 77.5%
FishAudio S2 4B 0.99% 0.54% 79.7%

🔧 生产就绪

  • CLIvoxcpm clone --reference-audio voice.wav
  • Web Demopython app.py
  • LoRA微调:5-10分钟音频即可适配新说话人
  • Nano-vLLM:高吞吐异步服务

📦 立即开始

pip install voxcpm

完全Apache 2.0许可 - 欢迎商业使用。加入GitHub上10K+星标,体验SOTA TTS!

实时 Playground | Hugging Face权重

原始文章: 查看原文

分享这篇文章