VoxCPM2 : TTS multilingue 2B avec clonage et conception de voix
VoxCPM2 : Révolutionner le TTS avec une architecture sans tokenizer
La prochaine génération de synthèse vocale
VoxCPM2 représente un bond quantique dans la technologie text-to-speech. Ce modèle à 2B paramètres, construit sur la base MiniCPM-4, élimine les goulots d'étranglement de la tokenisation traditionnelle grâce à son architecture innovante de diffusion autorégressive. Entraîné sur plus de 2M heures de parole multilingue, il produit un audio 48kHz de qualité studio dans 30 langues sans nécessiter d'étiquettes de langue.
✨ Innovations clés
🎨 Conception de voix à partir de texte seul
Créez des voix entièrement nouvelles en utilisant un langage naturel : (Jeune femme, ton chaleureux et doux, léger sourire) génère des voix uniques sans audio de référence.
🎛️ Clonage de voix contrôlable
Clonez n'importe quelle voix à partir de courts extraits tout en contrôlant l'émotion, le rythme et le style : (légèrement plus rapide, joyeux) préserve le timbre tout en ajustant l'expression.
🎙️ Fidélité ultime du clonage
Fournissez un audio de référence + transcription pour une reproduction vocale parfaite, capturant chaque nuance de timbre, de rythme et d'émotion.
🚀 Implémentation ultra-rapide
from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate("Bonjour de VoxCPM2 !", cfg_value=2.0)
sf.write("output.wav", wav, 48000)
Performance : RTF ~0.13 sur RTX 4090 avec Nano-vLLM (serveur par lots), ~8GB VRAM.
🌍 Couverture de 30 langues
Arabe, dialectes chinois (8+), anglais, français, allemand, hindi, japonais, coréen, espagnol, thaï, vietnamien + 20 autres.
📊 Domination des benchmarks
| Modèle | Params | EN WER | ZH CER | Score SIM |
|---|---|---|---|---|
| VoxCPM2 | 2B | 1.84% | 0.97% | 85.4% (EN) |
| Qwen3-TTS | 1.7B | 1.23% | 1.22% | 77.5% |
| FishAudio S2 | 4B | 0.99% | 0.54% | 79.7% |
🔧 Prêt pour la production
- CLI :
voxcpm clone --reference-audio voice.wav - Démo Web :
python app.py - Fine-tuning LoRA : 5-10 min d'audio s'adapte à de nouveaux locuteurs
- Nano-vLLM : Service asynchrone haute performance
📦 Commencez maintenant
pip install voxcpm
Entièrement sous licence Apache 2.0 - utilisation commerciale bienvenue. Rejoignez plus de 10K étoiles sur GitHub et découvrez le TTS SOTA dès aujourd'hui !