Qwen3‑ASR: アリババのオープンソース52言語ASRモデル
Qwen3‑ASR: アリババのオープンソース52言語ASRモデル
Alibaba Cloudの新しいQwen3‑ASRシリーズは、強力でオールインワンの音声認識システムをオープンソースコミュニティへ提供します。Qwen‑Omni基盤モデルをベースに、Qwen3‑ASRは現在52言語と22の中国方言に対応し、タイムスタンプ予測機能を備え、vLLMバックエンドを使って単一GPU上で効率的に動作します。
Qwen3‑ASRが際立つ理由
- 多言語範囲 – 52言語(英語・普通話・アラビア語・ドイツ語・スペイン語・フランス語・イタリア語・ベトナム語・日本語・韓国語・ヒンディー語など)と22の中国方言に対応。モデルは同一言語内のアクセントも区別できます。
- オールインワン – 言語検出、音声認識、タイムスタンプ予測を1回の推論呼び出しで実行。外部言語識別ライブラリは不要です。
- 先進的な性能 – LibriSpeechでQwen3‑ASR‑1.7BはWER1.63 %(Whisper‑large‑v3は2.78 %)を達成。歌声タスクではWER5.98 %を実現し、主要な商用デモを上回ります。
- 高速でスケーラブルな推論 – vLLMバックエンドは0.6Bモデルで128の並行処理を行い、2000倍のスループットを提供。ストリームモード推論により、サブセカンドの遅延でライブオーディオを文字起こしできます。
- 簡単なデプロイ – Dockerイメージ、Gradioデモ、OpenAI互換APIがデフォルトで用意されています。
はじめに
以下は、Qwen3‑ASRをダウンロード、インストール、実行するためのステップバイステップガイドです。全てのコマンドはUnix系シェルを想定しています。
1. リポジトリをクローン
git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR
2. 依存関係をインストール
クリーンなPython 3.12環境を作成します:
conda create -n qwen3-asr python=3.12 -y
conda activate qwen3-asr
コアパッケージをインストールします:
pip install -U qwen-asr
vLLMバックエンドを使用したい場合は次のコマンドを実行:
pip install -U qwen-asr[vllm]
Tip – FlashAttention‑2 を有効にしてGPUメモリ使用量を削減し、速度を向上させます:
pip install -U flash-attn --no-build-isolation
3. モデル重みをダウンロード
中国本土外のユーザーは、Hugging Face経由で最も簡単に取得できます:
pip install -U 'huggingface_hub[cli]'
huggingface-cli download Qwen/Qwen3-ASR-1.7B --local-dir ./Qwen3-ASR-1.7B
huggingface-cli download Qwen/Qwen3-ASR-0.6B --local-dir ./Qwen3-ASR-0.6B
中国本土内の場合は、ModelScopeを使用してください:
pip install -U modelscope
modelscope download --model Qwen/Qwen3-ASR-1.7B --local_dir ./Qwen3-ASR-1.7B
modelscope download --model Qwen/Qwen3-ASR-0.6B --local_dir ./Qwen3-ASR-0.6B
4. クイック推論デモ
import torch
from qwen_asr import Qwen3ASRModel
# 1.7Bトランスフォーマーモデルを読み込む
model = Qwen3ASRModel.from_pretrained(
'Qwen/Qwen3-ASR-1.7B',
dtype=torch.bfloat16,
device_map='cuda:0',
max_inference_batch_size=32,
max_new_tokens=256,
)
# サンプル音声を文字起こしする
results = model.transcribe(
audio='https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav',
language=None, # Auto‑detect
)
print('Predicted language:', results[0].language)
print('Transcription:', results[0].text)
5. ストリーミング推論(vLLM)
import torch
from qwen_asr import Qwen3ASRModel
if __name__ == '__main__':
model = Qwen3ASRModel.LLM(
model='Qwen/Qwen3-ASR-1.7B',
gpu_memory_utilization=0.7,
max_inference_batch_size=128,
max_new_tokens=4096,
)
# ストリーミング例は省略 – リポジトリを参照してください
6. 強制アラインメント
Qwen3‑ForcedAligner‑0.6Bは最大5 分の音声に対してワードレベルのタイムスタンプを提供します:
import torch
from qwen_asr import Qwen3ForcedAligner
aligner = Qwen3ForcedAligner.from_pretrained(
'Qwen/Qwen3-ForcedAligner-0.6B',
dtype=torch.bfloat16,
device_map='cuda:0',
)
alignment = aligner.align(
audio='https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav',
text='甚至出现交易几乎停滞的情况。',
language='Chinese',
)
for word in alignment[0]:
print(word.text, word.start_time, word.end_time)
ベンチマークハイライト
| データセット | Qwen3‑ASR‑1.7B | Whisper‑large‑v3 |
|---|---|---|
| LibriSpeech | 1.63 % | 2.78 % |
| Fleurs‑en | 3.35 % | 5.70 % |
| Singing Voice | 5.98 % | 7.88 % |
0.6Bバージョンは2倍の高速化を実現し、僅かな0.4 %WER増加で低遅延アプリケーションに最適です。
vLLMで本番デプロイ
- vLLMをインストール – GPU 12/9互換性のためニューヨーク版ホイールを使用します。
uv venv
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly/cu129
uv pip install 'vllm[audio]'
- ローカルサーバーを起動
vllm serve Qwen/Qwen3-ASR-1.7B
- OpenAI SDK経由でクエリ
from openai import OpenAI
client = OpenAI(base_url='http://localhost:8000/v1', api_key='EMPTY')
response = client.chat.completions.create(
model='Qwen/Qwen3-ASR-1.7B',
messages=[{'role': 'user', 'content': [{'type': 'audio_url', 'audio_url': {'url': '<YOUR_AUDIO_URL>'}}]},
)
print(response.choices[0].message.content)
Nginxや他のAPIゲートウェイの背後にサーバーを公開しても構いません。OpenAI互換のエンドポイントにより、統合が簡単です。
Dockerベースクイックスタート
docker run --gpus all --name qwen3-asr --p 8000:80 -v /your/workspace:/data/shared/Qwen3-ASR qwenllm/qwen3-asr:latest
このコンテナは Gradio UI を http://localhost:8000 に、vLLM API を 0.0.0.0:8000 に公開します。
まとめ
Qwen3‑ASRは単なる新しいオープンソースASRモデルではありません。商用APIと同等の性能を低価格で提供する、完全なエコシステムです。
- 高品質多言語文字起こし – 52言語、22中国方言。
- リアルタイム&バッチ推論 – Transformer・vLLM・ストリーミングで。
- 強制アラインメント – 高速で非自動回帰型タイムスタンプ。
- ゼロコンフィグデモ – Gradio UI、Docker、APIサーバーをすぐに使用可能。
多言語カスタマーサポートボット、音楽文字起こしサービス、研究プロトタイプを構築する際にも、Qwen3‑ASRは商用APIと同等の性能を低コストで提供します。
今すぐ始める にはリポジトリをクローンし、モデル重みをダウンロードし、サンプルスクリプトを実行してください。GitHubとDiscordでコミュニティが活発に活動しているので、使用例を共有し、次世代オープンソース音声認識の形成を手伝いましょう。