Qwen3‑TTS:高速でオープンソースのストリーミングTTS

Qwen3‑TTS:高速でオープンソースのストリーミングTTS

Alibaba の Qwen3‑TTS は、ハイファイで低遅延な音声合成と柔軟な音声制御を組み合わせた最先端のオープンソース TTS スイートです。軽量な Discrete Multi‑Codebook LM アーキテクチャに基づき、Qwen3‑TTS は 10ヶ国語(中国語・英語・日本語・韓国語・ドイツ語・フランス語・ロシア語・ポルトガル語・スペイン語・イタリア語)で、エクスプレッシブかつストリーミング音声生成を実装し、カスタム音声クローニング、音声設計、および自然言語指示をサポートします。

Qwen3‑TTS が際立つ点

Feature Description
超低遅延 ダブルトラックストリーミングにより、モデルは文字1個ごとに最初のオーディオパケットを出力でき、エンドツーエンドの遅延は 97 ms まで低減できます。
自由形態音声設計 文本文(例:"不安げに話す")の指示を使用して、追加トレーニングデータなしで望ましいパーソナリティに合った音声を生成できます。
効率的クローニング 短い音声クリップで 3 秒 以内にターゲット音声をクローニングし、スピーカーのアイデンティティを保持した高品質合成音声を生成します。
多言語対応 10ヶ国語と多数の方言を、堅牢なコンテキスト理解とともにサポートします。
オープンソース & Hugging Space 統合 GitHub で公開され、PyPI パッケージ、Hugging Face Hub、Gradio デモを用意しています。
軽量デプロイ FlashAttention 2 を搭載した単一の NVIDIA GPU 上で動作し、特殊ハードウェアは不要です。

これらの機能により、Qwen3‑TTS はチャットボット、バーチャルアシスタント、オーディオブック、言語学習ツールなど、リアルタイムアプリケーションに理想的です。

リポジトリのハイライト

  • モデル – 0.6 B、1.7 B のバリエーションがベース、カスタム音声、音声設計用にあり、各モデルは自己完結型の PyTorch モデルです。
  • トークナイザーQwen3‑TTS‑Tokenizer‑12Hz は効率的な音響圧縮(12 Hz コードブック)と高次元の意味マッピングを提供します。
  • ドキュメント – アーキテクチャ図、評価表、豊富なコードサンプルを含む充実した README です。
  • デモ – 迅速なプロトタイピング用の Gradio ローカル UI(qwen-tts-demo)です。

クイックスタートガイド

以下は、qwen-tts パッケージをインストールし、カスタム音声モデルを読み込んで鮮烈な音声指示付きの中国語文を生成する最小例です。

# 1. クリーンな環境を作成
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

# 2. ライブラリとオプション FlashAttention をインストール
pip install -U qwen-tts
pip install -U flash-attn --no-build-isolation

# 3. シンプルな生成スクリプトを実行
python - <<'PY'
import torch, soundfile as sf
from qwen_tts import Qwen3TTSModel

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

wav, sr = model.generate_custom_voice(
    text="実際に私は本当に見つけました、私は他人の感情を観察するのが大好きな人です。",
    language="Chinese",
    speaker="Vivian",
    instruct="特に怒った口調で話す",
)

sf.write("output.wav", wav[0], sr)
print("Saved to output.wav")
PY

output.wav ファイルには、架空のスピーカー Vivian が語る高品質で極端に怒りを込めた音声が含まれています。このサンプルは、指示駆動型音声制御の強力さを示しています。

音声クローニング実演

短いクリップから音声をクローニングし、数秒で新しい内容を生成します。

from qwen_tts import Qwen3TTSModel
import torch

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

ref_audio = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-TTS-Repo/clone.wav"
ref_text = "Okay. Yeah. I resent you. I love you."

wav, sr = model.generate_voice_clone(
    text="We will test the quality of this cloned voice.",
    language="English",
    ref_audio=ref_audio,
    ref_text=ref_text,
)

import soundfile as sf
sf.write("clone_output.wav", wav[0], sr)

結果は、ターゲットスピーカーのトレマと抑揚を保持したシームレスな合成音声です。

モデル選択用チートシート

Model Size Base / Custom / Design Stream Instruction Control
Qwen3-TTS-12Hz‑0.6B‑Base 0.6 B Base (clone)
Qwen3‑TTS‑12Hz‑1.7B‑CustomVoice 1.7 B Custom
Qwen3‑TTS‑12Hz‑1.7B‑VoiceDesign 1.7 B Design

すべてのモデルは Hugging Face Hub で公開され、qwen-tts PyPI パッケージ経由でダウンロードできます。

ファインチューニング & 評価

Qwen3‑TTS では、カスタムデータセットを用いた教師付きファインチューニングをサポートしています。finetuning/prepare_data.py スクリプトでデータフォーマット方法を示し、Qwen3TTSModel は標準的な PyTorch トレーニングループで再学習できます。評価メトリクスは WER、発話者類似度の Cosine Similarity、クロスランゲージテストの Mixed Error Rate です。リポジトリ内の eval.py スクリプトで、Qwen3‑TTS 技術報告書のベンチマークが再現されます。

デプロイメントオプション

Platform どうデプロイ
Local GPU qwen-tts-demo Gradio UI – qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base
Cloud (DashScope) Alibaba Cloud の DashScope を利用したカスタム音声とクローン化エンドポイントのリアルタイム API
Edge vLLM‑Omni でオフライン実行 – 最小 RAM でオフライン、単一モデル推論をサポート

Base モデルの安全なデプロイのため、Gradio デモに自己署名証明書または信頼できる CA を使用して HTTPS を有効化してください。

実際のユースケース

  1. 会話エージェント – やり取りの際に Qwen3‑TTS を統合し、魅力的で話者適応型の応答を生成。
  2. オーディオブック生成 – ナレーターの音声をクローニングし、数百万ページにわたって一貫したナレーションを実現。
  3. アクセシビリティ – 音声に感情とトーンを維持した多言語音声解説を生成し、視覚障害者向け。
  4. マルチリンガル音声アシスタント – 10ヶ国語モデルを用い、単一ベースバックボーンでグローバルカバレッジを提供。

コミュニティ参加

Qwen3‑TTS コミュニティは貢献を歓迎しています。 - バグ報告 – GitHub Issues - 機能リクエスト – GitHub Discussions - プルリクエスト – 新しいスピーカープロファイル、言語、またはパフォーマンス向上を追加 - データセット共有 – ファインチューニング用のカスタム音声‑テキストペアを提供

モデルは Apache‑2.0 ライセンス で公開され、商用および学術利用が可能です。

まとめ

Alibaba の Qwen3‑TTS は、ハイファイ、低遅延、オープンソース TTS スタックを提供し、先進的な音声クローニング、指示駆動型音声設計、多言語合成をサポートします。簡易インストール、リアルタイムストリーミング、堅牢な評価結果により、開発者は高速で高品質な音声ソリューションをプロトタイピング、イテレーション、デプロイが可能です。デモを試すか、Hugging Face からモデルを取得し、今日から明日の音声技術を構築してください。

この記事を共有