Qwen3‑ASR:阿里巴巴开源 52 语言 ASR 模型
Qwen3‑ASR:阿里巴巴开源 52 语言 ASR 模型
阿里云的全新 Qwen3‑ASR 系列将一套强大、全能的语音识别系统带入开源生态。基于 Qwen‑Omni 基础模型,Qwen3‑ASR 现已支持 52 种语言和 22 种中文方言,提供时间戳预测,并可在单张 GPU 上通过 vLLM 后端高效运行。
为什么 Qwen3‑ASR 与众不同
- 多语言覆盖 – 52 种语言(英语、普通话、阿拉伯语、德语、西班牙语、法语、意大利语、越南语、日语、韩语、印地语等),加上 22 种中文方言。模型甚至能区分同一语言内部的不同口音。
- 一体化 – 语言检测、语音识别与时间戳预测全部打包为一次推理调用,无需外部语言 ID 库。
- 尖端性能 – 在 LibriSpeech 上,Qwen3‑ASR‑1.7B 的 WER 仅为 1.63 %(Whisper‑large‑v3 为 2.78 %)。在歌唱声任务中,WER 达到 5.98 %,优于主流商业演示。
- 快速可扩展推理 – vLLM 后端在 0.6B 模型上以 128 并发实现 2000× 吞吐率。流式模式推理可实现秒级以下的实时音频转录。
- 轻松部署 – 提供 Docker 镜像、Gradio 演示以及 OpenAI 兼容 API 均一次性可用。
开始使用
以下是下载、安装并运行 Qwen3‑ASR 的逐步指南,所有命令均假设使用类 Unix shell。
1. 克隆仓库
git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR
2. 安装依赖
创建干净的 Python 3.12 环境:
conda create -n qwen3-asr python=3.12 -y
conda activate qwen3-asr
安装核心包:
pip install -U qwen-asr
如果想使用 vLLM 后端:
pip install -U qwen-asr[vllm]
提示 – 开启 FlashAttention‑2 可以降低 GPU 内存占用并提升速度:
pip install -U flash-attn --no-build-isolation
3. 下载模型权重
对于大陆以外的用户,最简便的方法是通过 Hugging Face:
pip install -U "huggingface_hub[cli]"
huggingface-cli download Qwen/Qwen3-ASR-1.7B --local-dir ./Qwen3-ASR-1.7B
huggingface-cli download Qwen/Qwen3-ASR-0.6B --local-dir ./Qwen3-ASR-0.6B
如果你在中国大陆,则使用 ModelScope:
pip install -U modelscope
modelscope download --model Qwen/Qwen3-ASR-1.7B --local_dir ./Qwen3-ASR-1.7B
modelscope download --model Qwen/Qwen3-ASR-0.6B --local_dir ./Qwen3-ASR-0.6B
4. 快速推理演示
import torch
from qwen_asr import Qwen3ASRModel
# 加载 1.7B Transformer 模型
model = Qwen3ASRModel.from_pretrained(
"Qwen/Qwen3-ASR-1.7B",
dtype=torch.bfloat16,
device_map="cuda:0",
max_inference_batch_size=32,
max_new_tokens=256,
)
# 对示例音频进行转录
results = model.transcribe(
audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
language=None, # 自动检测
)
print("Predicted language:", results[0].language)
print("Transcription:", results[0].text)
5. 流式推理(vLLM)
import torch
from qwen_asr import Qwen3ASRModel
if __name__ == "__main__":
model = Qwen3ASRModel.LLM(
model="Qwen/Qwen3-ASR-1.7B",
gpu_memory_utilization=0.7,
max_inference_batch_size=128,
max_new_tokens=4096,
)
# 演示代码省略,详情请参见仓库
6. 强制对齐
Qwen3‑ForcedAligner‑0.6B 能为多达 5 分钟的语音提供词级时间戳。
import torch
from qwen_asr import Qwen3ForcedAligner
aligner = Qwen3ForcedAligner.from_pretrained(
"Qwen/Qwen3-ForcedAligner-0.6B",
dtype=torch.bfloat16,
device_map="cuda:0",
)
alignment = aligner.align(
audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
text="甚至出现交易几乎停滞的情况。",
language="Chinese",
)
for word in alignment[0]:
print(word.text, word.start_time, word.end_time)
基准亮点
| 数据集 | Qwen3‑ASR‑1.7B | Whisper‑large‑v3 |
|---|---|---|
| LibriSpeech | 1.63 % | 2.78 % |
| Fleurs‑en | 3.35 % | 5.70 % |
| Singing Voice | 5.98 % | 7.88 % |
0.6B 版本在低延迟场景下实现 2 倍速度提升,同时仅有 0.4 % 的 WER 增加。
在生产环境中使用 vLLM 部署
- 安装 vLLM – 请选择与 GPU 12/9 兼容的 nightly wheel。
uv venv
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly/cu129
uv pip install "vllm[audio]"
- 启动本地服务器
vllm serve Qwen/Qwen3-ASR-1.7B
- 通过 OpenAI SDK 查询
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
response = client.chat.completions.create(
model="Qwen/Qwen3-ASR-1.7B",
messages=[{"role": "user", "content": [{"type": "audio_url", "audio_url": {"url": "<YOUR_AUDIO_URL>"}}]},
]
print(response.choices[0].message.content)
可将服务器放在 Nginx 或任何 API 网关后面——OpenAI 兼容端点让集成变得轻而易举。
基于 Docker 的快速启动
docker run --gpus all --name qwen3-asr \
-p 8000:80 \
-v /your/workspace:/data/shared/Qwen3-ASR \
qwenllm/qwen3-asr:latest
容器会在 http://localhost:8000 暴露 Gradio UI,并在 0.0.0.0:8000 提供 vLLM API。
总结
Qwen3‑ASR 不仅是一个新的开源 ASR 模型,它是一个完整的生态系统,提供:
- 高质量多语言转录 – 52 语言,22 种中文方言。
- 实时与批量推理 – 支持 Transformer、vLLM 或流式推理。
- 强制对齐 – 快速、非自回归的时间戳。
- 零配置演示 – Gradio UI、Docker 与 API 服务器一次性可用。
无论你是在构建多语言客服机器人、音乐转录服务,还是研究原型,Qwen3‑ASR 都能以商用 API 一半的成本提供卓越性能。
立即入门:克隆仓库、下载权重并运行示例脚本。社区已在 GitHub 与 Discord 上活跃,欢迎分享使用案例,共同塑造下一代开源语音识别。
原创文章:
查看原文