Qwen3‑TTS: TTS de transmisión rápida y de código abierto
Qwen3‑TTS: TTS de transmisión rápida y de código abierto
Alibaba’s Qwen3‑TTS es una suite de texto‑a‑voz (TTS) de última generación y de código abierto que combina síntesis de alta fidelidad y bajo retardo con control flexible de la voz. Construida sobre una arquitectura ligera de Discrete Multi‑Codebook LM, Qwen3‑TTS ofrece generación de habla expresiva y en streaming en 10 idiomas (Chino, Inglés, Japonés, Coreano, Alemán, Francés, Ruso, Portugués, Español e Italiano) mientras soporta clonación de voz personalizada, diseño de voz e instrucciones en lenguaje natural.
¿Qué hace que Qwen3‑TTS se destaque?
| Característica | Descripción |
|---|---|
| Latencia ultra‑baja | Stream dual permite que el modelo emita el primer paquete de audio después de un solo carácter. La latencia de extremo a extremo puede ser tan baja como 97 ms. |
| Diseño de voz libre | Usa instrucciones textuales (p. ej. "Habla con tono nervioso") para generar voces que coincidan con la persona deseada sin datos de entrenamiento adicionales. |
| Clonación eficiente | Clona una voz objetivo en 3 segundos con un breve clip de audio, produciendo habla sintética de alta calidad que conserva la identidad del hablante. |
| Cobertura multilingüe | 10 idiomas y muchos dialectos con robusta comprensión contextual. |
| Código abierto e integración con Hugging Space | Lanzamiento en GitHub con paquete PyPI público, Hub de Hugging Face y demo Gradio listo para ejecutar. |
| Despliegue ligero | Funciona en un solo GPU NVIDIA con FlashAttention 2; no requiere hardware especial. |
Estas capacidades hacen de Qwen3‑TTS una opción ideal para aplicaciones de tiempo real como chatbots, asistentes virtuales, audiolibros y herramientas de aprendizaje de idiomas.
Destacados del repositorio
- Modelos – variantes de 0.6 B y 1.7 B para base, voz‑personalizada y diseño‑de‑voz; cada modelo es autónomo en PyTorch.
- Tokenizador –
Qwen3‑TTS‑Tokenizer‑12Hzproporciona compresión acústica eficiente (códigos de 12 Hz) y mapeo semántico de alta dimensionalidad. - Documentación – README completo con diagramas de arquitectura, tablas de evaluación y abundantes ejemplos de código.
- Demo – UI local de Gradio (
qwen-tts-demo) para prototipado rápido.
Guía de inicio rápido
A continuación se muestra un ejemplo mínimo que instala el paquete qwen-tts, carga un modelo de voz‑personalizada y genera una frase en chino con una instrucción de voz vívida.
# 1. Crear un entorno limpio
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
# 2. Instalar la biblioteca y opcionalmente FlashAttention
pip install -U qwen-tts
pip install -U flash-attn --no-build-isolation
# 3. Ejecutar un script de generación sencillo
python - <<'PY'
import torch, soundfile as sf
from qwen_tts import Qwen3TTSModel
model = Qwen3TTSModel.from_pretrained(
"Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
device_map="cuda:0",
dtype=torch.bfloat16,
attn_implementation="flash_attention_2",
)
wav, sr = model.generate_custom_voice(
text="其实我真的有发现,我是一个特别善于观察别人情绪的人。",
language="Chinese",
speaker="Vivian",
instruct="用特别愤怒的语气说",
)
sf.write("output.wav", wav[0], sr)
print("Saved to output.wav")
PY
El archivo output.wav contiene una voz de alta calidad, intensamente enojada, pronunciada por la personaje ficticio Vivian. Esto demuestra el poder del control de voz impulsado por instrucciones.
Clonación de voz en acción
Clona una voz de un breve clip y genera nuevo contenido en pocos segundos:
from qwen_tts import Qwen3TTSModel
import torch
model = Qwen3TTSModel.from_pretrained(
"Qwen/Qwen3-TTS-12Hz-1.7B-Base",
device_map="cuda:0",
dtype=torch.bfloat16,
attn_implementation="flash_attention_2",
)
ref_audio = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-TTS-Repo/clone.wav"
ref_text = "Okay. Yeah. I resent you. I love you."
wav, sr = model.generate_voice_clone(
text="We will test the quality of this cloned voice.",
language="English",
ref_audio=ref_audio,
ref_text=ref_text,
)
import soundfile as sf
sf.write("clone_output.wav", wav[0], sr)
El resultado es una voz sintética fluida que conserva el timbre y prosodia del hablante objetivo.
Hoja de referencia rápida de modelos
| Modelo | Tamaño | Base / Personalizada / Diseño | Streaming | Control de instrucciones |
|---|---|---|---|---|
Qwen3-TTS-12Hz‑0.6B‑Base |
0.6 B | Base (clon) | ✅ | ✅ |
Qwen3‑TTS‑12Hz‑1.7B‑CustomVoice |
1.7 B | Personalizada | ✅ | ✅ |
Qwen3‑TTS‑12Hz‑1.7B‑VoiceDesign |
1.7 B | Diseño | ✅ | ✅ |
Todos los modelos están disponibles públicamente en el Hugging Face Hub y se pueden descargar mediante el paquete PyPI qwen-tts.
Ajuste fino y evaluación
Qwen3‑TTS permite ajuste fino supervisado con conjuntos de datos personalizados. El script finetuning/prepare_data.py demuestra cómo formatear tus datos, y Qwen3TTSModel puede entrenarse de nuevo con un bucle de entrenamiento PyTorch estándar. Las métricas de evaluación incluyen Tasa de Errores de Palabras (WER), Similaridad Coseno para similitud de hablantes y Tasa de Errores Mixtos para pruebas cruzanlingüísticas. El script eval.py reproduce los benchmarks del informe técnico de Qwen3‑TTS.
Opciones de despliegue
| Plataforma | Cómo desplegar |
|---|---|
| GPU local | UI Gradio qwen-tts-demo – qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base |
| Nube (DashScope) | Usa la API en tiempo real de Alibaba Cloud DashScope para ambos puntos finales de voz personalizada y clonación |
| Edge | Inferencia sin conexión con vLLM‑Omni – soporta inferencia de modelo único offline con RAM mínima |
Para despliegues seguros del modelo Base, habilita HTTPS en la demo de Gradio con certificados autofirmados o una CA de confianza.
Casos de uso en el mundo real
- Agentes conversacionales – Integra Qwen3‑TTS con el backend de tu chatbot para producir respuestas atractivas y adaptadas al hablante.
- Generación de audiolibros – Clona la voz de un narrador para una narración coherente a lo largo de millones de páginas.
- Accesibilidad – Genera explicaciones habladas multilingües, conservando tono y emoción para usuarios con discapacidades visuales.
- Asistentes de voz multilingües – Usa el modelo de 10 idiomas para cobertura mundial con una sola columna vertebral.
Únete
La comunidad de Qwen3‑TTS da la bienvenida a contribuciones: - Informes de errores – GitHub Issues - Solicitudes de funciones – GitHub Discussions - Pull requests – Añade nuevos perfiles de hablante, idiomas o mejora el rendimiento - Compartir conjuntos de datos – Proporciona pares audio‑texto personalizados para ajuste fino
El modelo se publica bajo la licencia Apache‑2.0, permitiendo uso comercial y académico.
Resumen
Qwen3‑TTS de Alibaba entrega una pila TTS de código abierto con bajo retardo, rica en funciones y con soporte para clonación de voces avanzada, diseño guiado por instrucciones y síntesis multilingüe. Con una instalación sencilla, streaming en tiempo real y resultados de evaluación robustos, está listo para que los desarrolladores prototipen, iteren y desplieguen soluciones de habla de alta fidelidad. Prueba la demo o descarga los modelos desde Hugging Face y comienza a construir la tecnología de voz del mañana hoy.