Qwen3‑TTS : Streaming TTS rapide et open‑source

Qwen3‑TTS : Streaming TTS rapide et open‑source

Alibaba Qwen3‑TTS est une suite de synthèse vocale (TTS) open‑source à la pointe de la technologie qui combine une synthèse haute‑fidélité à faible latence avec un contrôle vocal flexible. Construit sur une architecture de modèle de langage multicodebook discrets légère, Qwen3‑TTS offre une génération de discours expressive et en streaming dans 10 langues (chinois, anglais, japonais, coréen, allemand, français, russe, portugais, espagnol et italien) tout en prenant en charge le clonage vocal personnalisé, la conception vocale et les instructions en langage naturel.

Quels éléments distinguent Qwen3‑TTS ?

Fonctionnalité Description
Ultra‑faible latence Streaming à double piste permet au modèle de délivrer le premier paquet audio après un unique caractère. La latence de bout en bout peut descendre à 97 ms.
Conception vocale libre Utilisez des instructions textuelles (par ex., « Parlez avec un ton nerveux ») pour générer des voix correspondant à une personnalité souhaitée sans données d’entraînement supplémentaires.
Clonage efficace Clonez une voix cible en 3 secondes avec un court extrait audio, produisant une synthèse vocale de haute qualité qui préserve l’identité de l’orateur.
Couverture multilingue 10 langues et de nombreux dialectes avec une compréhension contextuelle robuste.
Open‑source et intégration Hugging Face Publication sur GitHub avec un paquet PyPI public, Hub Hugging Face, et une démo Gradio prête à l’emploi.
Déploiement léger Fonctionne sur une seule carte NVIDIA GPU avec FlashAttention 2 ; aucun matériel spécial requis.

Ces capacités font de Qwen3‑TTS un choix idéal pour les applications en temps réel telles que les chatbots, assistants virtuels, livres audio et outils d’apprentissage linguistique.

Points forts du dépôt

  • Modèles – Variants de 0,6 B et 1,7 B pour la base, la voix personnalisée et la conception vocale ; chaque modèle est un modèle PyTorch autonome.
  • TokeniseurQwen3‑TTS‑Tokenizer‑12Hz offre une compression acoustique efficiente (codebooks à 12 Hz) et une cartographie sémantique à haute dimension.
  • Documentation – README complet avec diagrammes d’architecture, tables d’évaluation et exemples de code étendus.
  • Démo – UI Gradio locale (qwen-tts-demo) pour prototyper rapidement.

Guide de démarrage rapide

Ci‑dessous, un exemple minimal qui installe le paquet qwen-tts, charge un modèle de voix personnalisée et génère une phrase en chinois avec une instruction vocale vivante.

# 1. Créer un environnement propre
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

# 2. Installer la bibliothèque et FlashAttention optionnel
pip install -U qwen-tts
pip install -U flash-attn --no-build-isolation

# 3. Exécuter un script de génération simple
python - <<'PY'
import torch, soundfile as sf
from qwen_tts import Qwen3TTSModel

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

wav, sr = model.generate_custom_voice(
    text="其实我真的有发现,我是一个特别善于观察别人情绪的人。",
    language="Chinese",
    speaker="Vivian",
    instruct="用特别愤怒的语气说",
)

sf.write("output.wav", wav[0], sr)
print("Saved to output.wav")
PY

Le fichier output.wav contient une voix agressive et haut de gamme, prononcée par le personnage fictif Vivian. Cela démontre la puissance du contrôle vocal à la demande.

Clonage vocal en action

Clonez une voix à partir d'un court extrait et générez de nouveaux contenus en quelques secondes :

from qwen_tts import Qwen3TTSModel
import torch

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

ref_audio = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-TTS-Repo/clone.wav"
ref_text = "Okay. Yeah. I resent you. I love you."

wav, sr = model.generate_voice_clone(
    text="We will test the quality of this cloned voice.",
    language="English",
    ref_audio=ref_audio,
    ref_text=ref_text,
)

import soundfile as sf
sf.write("clone_output.wav", wav[0], sr)

Le résultat est une voix synthétique fluide qui conserve le timbre et la prosodie de l’orateur cible.

Tableau de sélection de modèles

Modèle Taille Base / Personnalisé / Conception Streaming Contrôle d’instruction
Qwen3-TTS-12Hz‑0.6B‑Base 0.6 B Base (clone)
Qwen3‑TTS‑12Hz‑1.7B‑CustomVoice 1.7 B Custom
Qwen3‑TTS‑12Hz‑1.7B‑VoiceDesign 1.7 B Design

Tous les modèles sont disponibles publiquement sur le Hub Hugging Face et peuvent être téléchargés via le paquet PyPI qwen-tts.

Affinement et évaluation

Qwen3‑TTS prend en charge l’entrainement supervisé avec des ensembles de données personnalisés. Le script finetuning/prepare_data.py montre comment formater vos données, et le Qwen3TTSModel peut être réentraîné avec une boucle d’entraînement PyTorch standard. Les métriques d’évaluation comprennent le Taux d’erreur de mots (WER), la Similitude cosinus pour la similarité d’orateur, et le Taux d’erreur mixte pour les tests multilingues. Le script eval.py du dépôt reproduit les références techniques du rapport Qwen3‑TTS.

Options de déploiement

Plateforme Mode de déploiement
GPU local qwen-tts-demo UI Gradio – qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base
Nuage (DashScope) Utilisez l'API en temps réel DashScope d'Alibaba Cloud pour les points de terminaison de voix personnalisée et de clone vocal
Périphérique Inférence hors ligne avec vLLM‑Omni – prend en charge l’inférence hors ligne d'un seul modèle avec une mémoire RAM minimale

Pour les déploiements sécurisés du modèle Base, activez HTTPS dans la démo Gradio avec des certificats auto‑signés ou une autorité de certification de confiance.

Cas d’utilisation réels

  1. Agents conversationnels – Intégrez Qwen3‑TTS à votre backend chatbot pour produire des réponses engageantes et adaptatives à l’orateur.
  2. Génération de livres audio – Clonez la voix d’un narrateur pour une narration cohérente sur des millions de pages.
  3. Accessibilité – Générer des explications parlées multilingues, préservant ton et émotion pour les utilisateurs malvoyants.
  4. Assistants vocaux multilingues – Utilisez le modèle 10‑langues pour couvrir le monde avec un seul backbone.

Participez

La communauté Qwen3‑TTS accueille les contributions : - Rapports de bugs – Issues GitHub - Demandes de fonctionnalités – Discussions GitHub - Pull requests – Ajoutez de nouveaux profils d’orateurs, de nouvelles langues ou améliorez les performances - Partage de jeux de données – Fournissez des paires audio-texte personnalisées pour l’entrainement supervisé

Le modèle est publié sous licence Apache‑2.0, permettant l’utilisation commerciale et académique.

Résumé

Qwen3‑TTS d'Alibaba offre une pile TTS riche en fonctionnalités, à faible latence et open‑source qui prend en charge le clonage vocal avancé, la conception vocale guidée par instruction, et la synthèse multilingue. Avec une installation simple, un streaming en temps réel et des résultats d’évaluation solides, il est prêt pour que les développeurs prototypent, itèrent et déploient des solutions vocales haute‑fidélité. Essayez la démo ou téléchargez les modèles depuis Hugging Face et commencez à construire la technologie vocale du futur dès aujourd’hui.

Original Article: Voir l’original

Partager cet article