VoxCPM2: TTS multilingüe de 2B con clonación y diseño de voz

April 12, 2026

Categoría: Proyectos Prácticos de Código Abierto

Etiquetas:

Open Source tts Voice Cloning Multilingual Voice Design

VoxCPM2: Revolucionando TTS con arquitectura sin tokenizador

La próxima generación de síntesis de voz

VoxCPM2 representa un salto cuántico en la tecnología de texto a voz. Este modelo de 2B parámetros, construido sobre la base MiniCPM-4, elimina los cuellos de botella de la tokenización tradicional mediante su innovadora arquitectura de difusión autoregresiva. Entrenado con más de 2M horas de voz multilingüe, ofrece audio de calidad de estudio a 48kHz en 30 idiomas sin necesidad de etiquetas de idioma.

✨ Innovaciones clave

🎨 Diseño de voz solo desde texto

Crea voces completamente nuevas usando lenguaje natural: (Mujer joven, tono cálido y suave, ligera sonrisa) genera voces únicas sin audio de referencia.

🎛️ Clonación de voz controlable

Clona cualquier voz desde clips cortos mientras controlas emoción, ritmo y estilo: (ligeramente más rápido, alegre) preserva el timbre mientras ajusta la expresión.

🎙️ Fidelidad ultimate en clonación

Proporciona audio de referencia + transcripción para una reproducción vocal perfecta, capturando cada matiz de timbre, ritmo y emoción.

🚀 Implementación ultrarrápida

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate("¡Hola desde VoxCPM2!", cfg_value=2.0)
sf.write("output.wav", wav, 48000)

Rendimiento: RTF ~0.13 en RTX 4090 con Nano-vLLM (servicio por lotes), ~8GB VRAM.

🌍 Cobertura de 30 idiomas

Árabe, dialectos chinos (8+), inglés, francés, alemán, hindi, japonés, coreano, español, tailandés, vietnamita + 20 más.

📊 Dominio en benchmarks

Modelo	Parámetros	EN WER	ZH CER	SIM Score
VoxCPM2	2B	1.84%	0.97%	85.4% (EN)
Qwen3-TTS	1.7B	1.23%	1.22%	77.5%
FishAudio S2	4B	0.99%	0.54%	79.7%

🔧 Listo para producción

CLI: voxcpm clone --reference-audio voice.wav
Demo web: python app.py
Ajuste fino LoRA: 5-10min de audio adapta a nuevos hablantes
Nano-vLLM: Servicio asíncrono de alto rendimiento

📦 Comienza ahora

pip install voxcpm

Totalmente licenciado bajo Apache 2.0 - uso comercial bienvenido. Únete a más de 10K estrellas en GitHub y experimenta TTS SOTA hoy!

Live Playground | Pesos Hugging Face

Artículo original: Ver original

Compartir este artículo