Qwen3‑TTS: TTS de transmisión rápida y de código abierto

January 25, 2026

Categoría: Proyectos Prácticos de Código Abierto

Etiquetas:

Open Source AI tts Speech Synthesis Alibaba Cloud

Qwen3‑TTS: TTS de transmisión rápida y de código abierto

Alibaba’s Qwen3‑TTS es una suite de texto‑a‑voz (TTS) de última generación y de código abierto que combina síntesis de alta fidelidad y bajo retardo con control flexible de la voz. Construida sobre una arquitectura ligera de Discrete Multi‑Codebook LM, Qwen3‑TTS ofrece generación de habla expresiva y en streaming en 10 idiomas (Chino, Inglés, Japonés, Coreano, Alemán, Francés, Ruso, Portugués, Español e Italiano) mientras soporta clonación de voz personalizada, diseño de voz e instrucciones en lenguaje natural.

¿Qué hace que Qwen3‑TTS se destaque?

Característica	Descripción
Latencia ultra‑baja	Stream dual permite que el modelo emita el primer paquete de audio después de un solo carácter. La latencia de extremo a extremo puede ser tan baja como 97 ms.
Diseño de voz libre	Usa instrucciones textuales (p. ej. "Habla con tono nervioso") para generar voces que coincidan con la persona deseada sin datos de entrenamiento adicionales.
Clonación eficiente	Clona una voz objetivo en 3 segundos con un breve clip de audio, produciendo habla sintética de alta calidad que conserva la identidad del hablante.
Cobertura multilingüe	10 idiomas y muchos dialectos con robusta comprensión contextual.
Código abierto e integración con Hugging Space	Lanzamiento en GitHub con paquete PyPI público, Hub de Hugging Face y demo Gradio listo para ejecutar.
Despliegue ligero	Funciona en un solo GPU NVIDIA con FlashAttention 2; no requiere hardware especial.

Estas capacidades hacen de Qwen3‑TTS una opción ideal para aplicaciones de tiempo real como chatbots, asistentes virtuales, audiolibros y herramientas de aprendizaje de idiomas.

Destacados del repositorio

Modelos – variantes de 0.6 B y 1.7 B para base, voz‑personalizada y diseño‑de‑voz; cada modelo es autónomo en PyTorch.
Tokenizador – Qwen3‑TTS‑Tokenizer‑12Hz proporciona compresión acústica eficiente (códigos de 12 Hz) y mapeo semántico de alta dimensionalidad.
Documentación – README completo con diagramas de arquitectura, tablas de evaluación y abundantes ejemplos de código.
Demo – UI local de Gradio (qwen-tts-demo) para prototipado rápido.

Guía de inicio rápido

A continuación se muestra un ejemplo mínimo que instala el paquete qwen-tts, carga un modelo de voz‑personalizada y genera una frase en chino con una instrucción de voz vívida.

# 1. Crear un entorno limpio
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

# 2. Instalar la biblioteca y opcionalmente FlashAttention
pip install -U qwen-tts
pip install -U flash-attn --no-build-isolation

# 3. Ejecutar un script de generación sencillo
python - <<'PY'
import torch, soundfile as sf
from qwen_tts import Qwen3TTSModel

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

wav, sr = model.generate_custom_voice(
    text="其实我真的有发现，我是一个特别善于观察别人情绪的人。",
    language="Chinese",
    speaker="Vivian",
    instruct="用特别愤怒的语气说",
)

sf.write("output.wav", wav[0], sr)
print("Saved to output.wav")
PY

El archivo output.wav contiene una voz de alta calidad, intensamente enojada, pronunciada por la personaje ficticio Vivian. Esto demuestra el poder del control de voz impulsado por instrucciones.

Clonación de voz en acción

Clona una voz de un breve clip y genera nuevo contenido en pocos segundos:

from qwen_tts import Qwen3TTSModel
import torch

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

ref_audio = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-TTS-Repo/clone.wav"
ref_text = "Okay. Yeah. I resent you. I love you."

wav, sr = model.generate_voice_clone(
    text="We will test the quality of this cloned voice.",
    language="English",
    ref_audio=ref_audio,
    ref_text=ref_text,
)

import soundfile as sf
sf.write("clone_output.wav", wav[0], sr)

El resultado es una voz sintética fluida que conserva el timbre y prosodia del hablante objetivo.

Hoja de referencia rápida de modelos

Modelo	Tamaño	Base / Personalizada / Diseño	Streaming	Control de instrucciones
`Qwen3-TTS-12Hz‑0.6B‑Base`	0.6 B	Base (clon)	✅	✅
`Qwen3‑TTS‑12Hz‑1.7B‑CustomVoice`	1.7 B	Personalizada	✅	✅
`Qwen3‑TTS‑12Hz‑1.7B‑VoiceDesign`	1.7 B	Diseño	✅	✅

Todos los modelos están disponibles públicamente en el Hugging Face Hub y se pueden descargar mediante el paquete PyPI qwen-tts.

Ajuste fino y evaluación

Qwen3‑TTS permite ajuste fino supervisado con conjuntos de datos personalizados. El script finetuning/prepare_data.py demuestra cómo formatear tus datos, y Qwen3TTSModel puede entrenarse de nuevo con un bucle de entrenamiento PyTorch estándar. Las métricas de evaluación incluyen Tasa de Errores de Palabras (WER), Similaridad Coseno para similitud de hablantes y Tasa de Errores Mixtos para pruebas cruzanlingüísticas. El script eval.py reproduce los benchmarks del informe técnico de Qwen3‑TTS.

Opciones de despliegue

Plataforma	Cómo desplegar
GPU local	UI Gradio `qwen-tts-demo` – `qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base`
Nube (DashScope)	Usa la API en tiempo real de Alibaba Cloud DashScope para ambos puntos finales de voz personalizada y clonación
Edge	Inferencia sin conexión con vLLM‑Omni – soporta inferencia de modelo único offline con RAM mínima

Para despliegues seguros del modelo Base, habilita HTTPS en la demo de Gradio con certificados autofirmados o una CA de confianza.

Casos de uso en el mundo real

Agentes conversacionales – Integra Qwen3‑TTS con el backend de tu chatbot para producir respuestas atractivas y adaptadas al hablante.
Generación de audiolibros – Clona la voz de un narrador para una narración coherente a lo largo de millones de páginas.
Accesibilidad – Genera explicaciones habladas multilingües, conservando tono y emoción para usuarios con discapacidades visuales.
Asistentes de voz multilingües – Usa el modelo de 10 idiomas para cobertura mundial con una sola columna vertebral.

Únete

La comunidad de Qwen3‑TTS da la bienvenida a contribuciones: - Informes de errores – GitHub Issues - Solicitudes de funciones – GitHub Discussions - Pull requests – Añade nuevos perfiles de hablante, idiomas o mejora el rendimiento - Compartir conjuntos de datos – Proporciona pares audio‑texto personalizados para ajuste fino

El modelo se publica bajo la licencia Apache‑2.0, permitiendo uso comercial y académico.

Resumen

Qwen3‑TTS de Alibaba entrega una pila TTS de código abierto con bajo retardo, rica en funciones y con soporte para clonación de voces avanzada, diseño guiado por instrucciones y síntesis multilingüe. Con una instalación sencilla, streaming en tiempo real y resultados de evaluación robustos, está listo para que los desarrolladores prototipen, iteren y desplieguen soluciones de habla de alta fidelidad. Prueba la demo o descarga los modelos desde Hugging Face y comienza a construir la tecnología de voz del mañana hoy.

Artículo original: Ver original

Compartir este artículo