VoxCPM2 : TTS multilingue 2B avec clonage et conception de voix

VoxCPM2 : Révolutionner le TTS avec une architecture sans tokenizer

La prochaine génération de synthèse vocale

VoxCPM2 représente un bond quantique dans la technologie text-to-speech. Ce modèle à 2B paramètres, construit sur la base MiniCPM-4, élimine les goulots d'étranglement de la tokenisation traditionnelle grâce à son architecture innovante de diffusion autorégressive. Entraîné sur plus de 2M heures de parole multilingue, il produit un audio 48kHz de qualité studio dans 30 langues sans nécessiter d'étiquettes de langue.

✨ Innovations clés

🎨 Conception de voix à partir de texte seul

Créez des voix entièrement nouvelles en utilisant un langage naturel : (Jeune femme, ton chaleureux et doux, léger sourire) génère des voix uniques sans audio de référence.

🎛️ Clonage de voix contrôlable

Clonez n'importe quelle voix à partir de courts extraits tout en contrôlant l'émotion, le rythme et le style : (légèrement plus rapide, joyeux) préserve le timbre tout en ajustant l'expression.

🎙️ Fidélité ultime du clonage

Fournissez un audio de référence + transcription pour une reproduction vocale parfaite, capturant chaque nuance de timbre, de rythme et d'émotion.

🚀 Implémentation ultra-rapide

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate("Bonjour de VoxCPM2 !", cfg_value=2.0)
sf.write("output.wav", wav, 48000)

Performance : RTF ~0.13 sur RTX 4090 avec Nano-vLLM (serveur par lots), ~8GB VRAM.

🌍 Couverture de 30 langues

Arabe, dialectes chinois (8+), anglais, français, allemand, hindi, japonais, coréen, espagnol, thaï, vietnamien + 20 autres.

📊 Domination des benchmarks

Modèle Params EN WER ZH CER Score SIM
VoxCPM2 2B 1.84% 0.97% 85.4% (EN)
Qwen3-TTS 1.7B 1.23% 1.22% 77.5%
FishAudio S2 4B 0.99% 0.54% 79.7%

🔧 Prêt pour la production

  • CLI : voxcpm clone --reference-audio voice.wav
  • Démo Web : python app.py
  • Fine-tuning LoRA : 5-10 min d'audio s'adapte à de nouveaux locuteurs
  • Nano-vLLM : Service asynchrone haute performance

📦 Commencez maintenant

pip install voxcpm

Entièrement sous licence Apache 2.0 - utilisation commerciale bienvenue. Rejoignez plus de 10K étoiles sur GitHub et découvrez le TTS SOTA dès aujourd'hui !

Playground en direct | Poids Hugging Face

Article original: Voir l'original

Partager cet article