Qwen3‑ASR: アリババのオープンソース52言語ASRモデル

Qwen3‑ASR: アリババのオープンソース52言語ASRモデル

Alibaba Cloudの新しいQwen3‑ASRシリーズは、強力でオールインワンの音声認識システムをオープンソースコミュニティへ提供します。Qwen‑Omni基盤モデルをベースに、Qwen3‑ASRは現在52言語と22の中国方言に対応し、タイムスタンプ予測機能を備え、vLLMバックエンドを使って単一GPU上で効率的に動作します。

Qwen3‑ASRが際立つ理由

  • 多言語範囲 – 52言語(英語・普通話・アラビア語・ドイツ語・スペイン語・フランス語・イタリア語・ベトナム語・日本語・韓国語・ヒンディー語など)と22の中国方言に対応。モデルは同一言語内のアクセントも区別できます。
  • オールインワン – 言語検出、音声認識、タイムスタンプ予測を1回の推論呼び出しで実行。外部言語識別ライブラリは不要です。
  • 先進的な性能 – LibriSpeechでQwen3‑ASR‑1.7BはWER1.63 %(Whisper‑large‑v3は2.78 %)を達成。歌声タスクではWER5.98 %を実現し、主要な商用デモを上回ります。
  • 高速でスケーラブルな推論 – vLLMバックエンドは0.6Bモデルで128の並行処理を行い、2000倍のスループットを提供。ストリームモード推論により、サブセカンドの遅延でライブオーディオを文字起こしできます。
  • 簡単なデプロイ – Dockerイメージ、Gradioデモ、OpenAI互換APIがデフォルトで用意されています。

はじめに

以下は、Qwen3‑ASRをダウンロード、インストール、実行するためのステップバイステップガイドです。全てのコマンドはUnix系シェルを想定しています。

1. リポジトリをクローン

git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR

2. 依存関係をインストール

クリーンなPython 3.12環境を作成します:

conda create -n qwen3-asr python=3.12 -y
conda activate qwen3-asr

コアパッケージをインストールします:

pip install -U qwen-asr

vLLMバックエンドを使用したい場合は次のコマンドを実行:

pip install -U qwen-asr[vllm]

Tip – FlashAttention‑2 を有効にしてGPUメモリ使用量を削減し、速度を向上させます:

pip install -U flash-attn --no-build-isolation

3. モデル重みをダウンロード

中国本土外のユーザーは、Hugging Face経由で最も簡単に取得できます:

pip install -U 'huggingface_hub[cli]'

huggingface-cli download Qwen/Qwen3-ASR-1.7B --local-dir ./Qwen3-ASR-1.7B
huggingface-cli download Qwen/Qwen3-ASR-0.6B --local-dir ./Qwen3-ASR-0.6B

中国本土内の場合は、ModelScopeを使用してください:

pip install -U modelscope

modelscope download --model Qwen/Qwen3-ASR-1.7B --local_dir ./Qwen3-ASR-1.7B
modelscope download --model Qwen/Qwen3-ASR-0.6B --local_dir ./Qwen3-ASR-0.6B

4. クイック推論デモ

import torch
from qwen_asr import Qwen3ASRModel

# 1.7Bトランスフォーマーモデルを読み込む
model = Qwen3ASRModel.from_pretrained(
    'Qwen/Qwen3-ASR-1.7B',
    dtype=torch.bfloat16,
    device_map='cuda:0',
    max_inference_batch_size=32,
    max_new_tokens=256,
)

# サンプル音声を文字起こしする
results = model.transcribe(
    audio='https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav',
    language=None,  # Auto‑detect
)

print('Predicted language:', results[0].language)
print('Transcription:', results[0].text)

5. ストリーミング推論(vLLM)

import torch
from qwen_asr import Qwen3ASRModel

if __name__ == '__main__':
    model = Qwen3ASRModel.LLM(
        model='Qwen/Qwen3-ASR-1.7B',
        gpu_memory_utilization=0.7,
        max_inference_batch_size=128,
        max_new_tokens=4096,
    )
    # ストリーミング例は省略 – リポジトリを参照してください

6. 強制アラインメント

Qwen3‑ForcedAligner‑0.6Bは最大5 分の音声に対してワードレベルのタイムスタンプを提供します:

import torch
from qwen_asr import Qwen3ForcedAligner

aligner = Qwen3ForcedAligner.from_pretrained(
    'Qwen/Qwen3-ForcedAligner-0.6B',
    dtype=torch.bfloat16,
    device_map='cuda:0',
)

alignment = aligner.align(
    audio='https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav',
    text='甚至出现交易几乎停滞的情况。',
    language='Chinese',
)

for word in alignment[0]:
    print(word.text, word.start_time, word.end_time)

ベンチマークハイライト

データセット Qwen3‑ASR‑1.7B Whisper‑large‑v3
LibriSpeech 1.63 % 2.78 %
Fleurs‑en 3.35 % 5.70 %
Singing Voice 5.98 % 7.88 %

0.6Bバージョンは2倍の高速化を実現し、僅かな0.4 %WER増加で低遅延アプリケーションに最適です。

vLLMで本番デプロイ

  1. vLLMをインストール – GPU 12/9互換性のためニューヨーク版ホイールを使用します。
uv venv
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly/cu129
uv pip install 'vllm[audio]'
  1. ローカルサーバーを起動
vllm serve Qwen/Qwen3-ASR-1.7B
  1. OpenAI SDK経由でクエリ
from openai import OpenAI
client = OpenAI(base_url='http://localhost:8000/v1', api_key='EMPTY')

response = client.chat.completions.create(
    model='Qwen/Qwen3-ASR-1.7B',
    messages=[{'role': 'user', 'content': [{'type': 'audio_url', 'audio_url': {'url': '<YOUR_AUDIO_URL>'}}]},
)
print(response.choices[0].message.content)

Nginxや他のAPIゲートウェイの背後にサーバーを公開しても構いません。OpenAI互換のエンドポイントにより、統合が簡単です。

Dockerベースクイックスタート

docker run --gpus all --name qwen3-asr --p 8000:80 -v /your/workspace:/data/shared/Qwen3-ASR qwenllm/qwen3-asr:latest

このコンテナは Gradio UI を http://localhost:8000 に、vLLM API を 0.0.0.0:8000 に公開します。

まとめ

Qwen3‑ASRは単なる新しいオープンソースASRモデルではありません。商用APIと同等の性能を低価格で提供する、完全なエコシステムです。

  • 高品質多言語文字起こし – 52言語、22中国方言。
  • リアルタイム&バッチ推論 – Transformer・vLLM・ストリーミングで。
  • 強制アラインメント – 高速で非自動回帰型タイムスタンプ。
  • ゼロコンフィグデモ – Gradio UI、Docker、APIサーバーをすぐに使用可能。

多言語カスタマーサポートボット、音楽文字起こしサービス、研究プロトタイプを構築する際にも、Qwen3‑ASRは商用APIと同等の性能を低コストで提供します。

今すぐ始める にはリポジトリをクローンし、モデル重みをダウンロードし、サンプルスクリプトを実行してください。GitHubとDiscordでコミュニティが活発に活動しているので、使用例を共有し、次世代オープンソース音声認識の形成を手伝いましょう。

この記事を共有