VoxCPM2: TTS multilingüe de 2B con clonación y diseño de voz
VoxCPM2: Revolucionando TTS con arquitectura sin tokenizador
La próxima generación de síntesis de voz
VoxCPM2 representa un salto cuántico en la tecnología de texto a voz. Este modelo de 2B parámetros, construido sobre la base MiniCPM-4, elimina los cuellos de botella de la tokenización tradicional mediante su innovadora arquitectura de difusión autoregresiva. Entrenado con más de 2M horas de voz multilingüe, ofrece audio de calidad de estudio a 48kHz en 30 idiomas sin necesidad de etiquetas de idioma.
✨ Innovaciones clave
🎨 Diseño de voz solo desde texto
Crea voces completamente nuevas usando lenguaje natural: (Mujer joven, tono cálido y suave, ligera sonrisa) genera voces únicas sin audio de referencia.
🎛️ Clonación de voz controlable
Clona cualquier voz desde clips cortos mientras controlas emoción, ritmo y estilo: (ligeramente más rápido, alegre) preserva el timbre mientras ajusta la expresión.
🎙️ Fidelidad ultimate en clonación
Proporciona audio de referencia + transcripción para una reproducción vocal perfecta, capturando cada matiz de timbre, ritmo y emoción.
🚀 Implementación ultrarrápida
from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate("¡Hola desde VoxCPM2!", cfg_value=2.0)
sf.write("output.wav", wav, 48000)
Rendimiento: RTF ~0.13 en RTX 4090 con Nano-vLLM (servicio por lotes), ~8GB VRAM.
🌍 Cobertura de 30 idiomas
Árabe, dialectos chinos (8+), inglés, francés, alemán, hindi, japonés, coreano, español, tailandés, vietnamita + 20 más.
📊 Dominio en benchmarks
| Modelo | Parámetros | EN WER | ZH CER | SIM Score |
|---|---|---|---|---|
| VoxCPM2 | 2B | 1.84% | 0.97% | 85.4% (EN) |
| Qwen3-TTS | 1.7B | 1.23% | 1.22% | 77.5% |
| FishAudio S2 | 4B | 0.99% | 0.54% | 79.7% |
🔧 Listo para producción
- CLI:
voxcpm clone --reference-audio voice.wav - Demo web:
python app.py - Ajuste fino LoRA: 5-10min de audio adapta a nuevos hablantes
- Nano-vLLM: Servicio asíncrono de alto rendimiento
📦 Comienza ahora
pip install voxcpm
Totalmente licenciado bajo Apache 2.0 - uso comercial bienvenido. Únete a más de 10K estrellas en GitHub y experimenta TTS SOTA hoy!