Qwen3‑ASR:阿里巴巴开源 52 语言 ASR 模型

Qwen3‑ASR:阿里巴巴开源 52 语言 ASR 模型

阿里云的全新 Qwen3‑ASR 系列将一套强大、全能的语音识别系统带入开源生态。基于 Qwen‑Omni 基础模型,Qwen3‑ASR 现已支持 52 种语言和 22 种中文方言,提供时间戳预测,并可在单张 GPU 上通过 vLLM 后端高效运行。

为什么 Qwen3‑ASR 与众不同

  • 多语言覆盖 – 52 种语言(英语、普通话、阿拉伯语、德语、西班牙语、法语、意大利语、越南语、日语、韩语、印地语等),加上 22 种中文方言。模型甚至能区分同一语言内部的不同口音。
  • 一体化 – 语言检测、语音识别与时间戳预测全部打包为一次推理调用,无需外部语言 ID 库。
  • 尖端性能 – 在 LibriSpeech 上,Qwen3‑ASR‑1.7B 的 WER 仅为 1.63 %(Whisper‑large‑v3 为 2.78 %)。在歌唱声任务中,WER 达到 5.98 %,优于主流商业演示。
  • 快速可扩展推理 – vLLM 后端在 0.6B 模型上以 128 并发实现 2000× 吞吐率。流式模式推理可实现秒级以下的实时音频转录。
  • 轻松部署 – 提供 Docker 镜像、Gradio 演示以及 OpenAI 兼容 API 均一次性可用。

开始使用

以下是下载、安装并运行 Qwen3‑ASR 的逐步指南,所有命令均假设使用类 Unix shell。

1. 克隆仓库

git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR

2. 安装依赖

创建干净的 Python 3.12 环境:

conda create -n qwen3-asr python=3.12 -y
conda activate qwen3-asr

安装核心包:

pip install -U qwen-asr

如果想使用 vLLM 后端:

pip install -U qwen-asr[vllm]

提示 – 开启 FlashAttention‑2 可以降低 GPU 内存占用并提升速度:

pip install -U flash-attn --no-build-isolation

3. 下载模型权重

对于大陆以外的用户,最简便的方法是通过 Hugging Face:

pip install -U "huggingface_hub[cli]"

huggingface-cli download Qwen/Qwen3-ASR-1.7B --local-dir ./Qwen3-ASR-1.7B
huggingface-cli download Qwen/Qwen3-ASR-0.6B --local-dir ./Qwen3-ASR-0.6B

如果你在中国大陆,则使用 ModelScope:

pip install -U modelscope

modelscope download --model Qwen/Qwen3-ASR-1.7B --local_dir ./Qwen3-ASR-1.7B
modelscope download --model Qwen/Qwen3-ASR-0.6B --local_dir ./Qwen3-ASR-0.6B

4. 快速推理演示

import torch
from qwen_asr import Qwen3ASRModel

# 加载 1.7B Transformer 模型
model = Qwen3ASRModel.from_pretrained(
    "Qwen/Qwen3-ASR-1.7B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    max_inference_batch_size=32,
    max_new_tokens=256,
)

# 对示例音频进行转录
results = model.transcribe(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
    language=None,  # 自动检测
)

print("Predicted language:", results[0].language)
print("Transcription:", results[0].text)

5. 流式推理(vLLM)

import torch
from qwen_asr import Qwen3ASRModel

if __name__ == "__main__":
    model = Qwen3ASRModel.LLM(
        model="Qwen/Qwen3-ASR-1.7B",
        gpu_memory_utilization=0.7,
        max_inference_batch_size=128,
        max_new_tokens=4096,
    )
    # 演示代码省略,详情请参见仓库

6. 强制对齐

Qwen3‑ForcedAligner‑0.6B 能为多达 5 分钟的语音提供词级时间戳。

import torch
from qwen_asr import Qwen3ForcedAligner

aligner = Qwen3ForcedAligner.from_pretrained(
    "Qwen/Qwen3-ForcedAligner-0.6B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
)

alignment = aligner.align(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
    text="甚至出现交易几乎停滞的情况。",
    language="Chinese",
)

for word in alignment[0]:
    print(word.text, word.start_time, word.end_time)

基准亮点

数据集 Qwen3‑ASR‑1.7B Whisper‑large‑v3
LibriSpeech 1.63 % 2.78 %
Fleurs‑en 3.35 % 5.70 %
Singing Voice 5.98 % 7.88 %

0.6B 版本在低延迟场景下实现 2 倍速度提升,同时仅有 0.4 % 的 WER 增加。

在生产环境中使用 vLLM 部署

  1. 安装 vLLM – 请选择与 GPU 12/9 兼容的 nightly wheel。
uv venv
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly/cu129
uv pip install "vllm[audio]"
  1. 启动本地服务器
vllm serve Qwen/Qwen3-ASR-1.7B
  1. 通过 OpenAI SDK 查询
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="Qwen/Qwen3-ASR-1.7B",
    messages=[{"role": "user", "content": [{"type": "audio_url", "audio_url": {"url": "<YOUR_AUDIO_URL>"}}]},
]
print(response.choices[0].message.content)

可将服务器放在 Nginx 或任何 API 网关后面——OpenAI 兼容端点让集成变得轻而易举。

基于 Docker 的快速启动

docker run --gpus all --name qwen3-asr \
  -p 8000:80 \
  -v /your/workspace:/data/shared/Qwen3-ASR \
  qwenllm/qwen3-asr:latest

容器会在 http://localhost:8000 暴露 Gradio UI,并在 0.0.0.0:8000 提供 vLLM API。

总结

Qwen3‑ASR 不仅是一个新的开源 ASR 模型,它是一个完整的生态系统,提供:

  • 高质量多语言转录 – 52 语言,22 种中文方言。
  • 实时与批量推理 – 支持 Transformer、vLLM 或流式推理。
  • 强制对齐 – 快速、非自回归的时间戳。
  • 零配置演示 – Gradio UI、Docker 与 API 服务器一次性可用。

无论你是在构建多语言客服机器人、音乐转录服务,还是研究原型,Qwen3‑ASR 都能以商用 API 一半的成本提供卓越性能。

立即入门:克隆仓库、下载权重并运行示例脚本。社区已在 GitHub 与 Discord 上活跃,欢迎分享使用案例,共同塑造下一代开源语音识别。

原创文章: 查看原文

分享本文