VoxCPM2: TTS multilingüe de 2B con clonación y diseño de voz

VoxCPM2: Revolucionando TTS con arquitectura sin tokenizador

La próxima generación de síntesis de voz

VoxCPM2 representa un salto cuántico en la tecnología de texto a voz. Este modelo de 2B parámetros, construido sobre la base MiniCPM-4, elimina los cuellos de botella de la tokenización tradicional mediante su innovadora arquitectura de difusión autoregresiva. Entrenado con más de 2M horas de voz multilingüe, ofrece audio de calidad de estudio a 48kHz en 30 idiomas sin necesidad de etiquetas de idioma.

✨ Innovaciones clave

🎨 Diseño de voz solo desde texto

Crea voces completamente nuevas usando lenguaje natural: (Mujer joven, tono cálido y suave, ligera sonrisa) genera voces únicas sin audio de referencia.

🎛️ Clonación de voz controlable

Clona cualquier voz desde clips cortos mientras controlas emoción, ritmo y estilo: (ligeramente más rápido, alegre) preserva el timbre mientras ajusta la expresión.

🎙️ Fidelidad ultimate en clonación

Proporciona audio de referencia + transcripción para una reproducción vocal perfecta, capturando cada matiz de timbre, ritmo y emoción.

🚀 Implementación ultrarrápida

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate("¡Hola desde VoxCPM2!", cfg_value=2.0)
sf.write("output.wav", wav, 48000)

Rendimiento: RTF ~0.13 en RTX 4090 con Nano-vLLM (servicio por lotes), ~8GB VRAM.

🌍 Cobertura de 30 idiomas

Árabe, dialectos chinos (8+), inglés, francés, alemán, hindi, japonés, coreano, español, tailandés, vietnamita + 20 más.

📊 Dominio en benchmarks

Modelo Parámetros EN WER ZH CER SIM Score
VoxCPM2 2B 1.84% 0.97% 85.4% (EN)
Qwen3-TTS 1.7B 1.23% 1.22% 77.5%
FishAudio S2 4B 0.99% 0.54% 79.7%

🔧 Listo para producción

  • CLI: voxcpm clone --reference-audio voice.wav
  • Demo web: python app.py
  • Ajuste fino LoRA: 5-10min de audio adapta a nuevos hablantes
  • Nano-vLLM: Servicio asíncrono de alto rendimiento

📦 Comienza ahora

pip install voxcpm

Totalmente licenciado bajo Apache 2.0 - uso comercial bienvenido. Únete a más de 10K estrellas en GitHub y experimenta TTS SOTA hoy!

Live Playground | Pesos Hugging Face

Artículo original: Ver original

Compartir este artículo