Qwen3-ASR: Modelo de ASR de 52 idiomas de código abierto de Alibaba

January 31, 2026

Categoría: Proyectos Prácticos de Código Abierto

Etiquetas:

Open Source Speech Recognition Alibaba ASR Multilingual

Qwen3‑ASR: Modelo de ASR de 52 idiomas de código abierto de Alibaba

La nueva serie Qwen3‑ASR de Alibaba Cloud lleva un potente sistema de reconocimiento de voz todo en uno al ecosistema de código abierto. Construido sobre el modelo base Qwen‑Omni, Qwen3‑ASR ahora es compatible con 52 idiomas y 22 dialectos chinos, ofrece predicciones de marcas de tiempo y puede ejecutarse de manera eficiente en una sola GPU con el backend vLLM.

Por qué Qwen3‑ASR destaca

Amplia cobertura multilingüe – 52 idiomas (inglés, mandarín, árabe, alemán, español, francés, italiano, vietnamita, japonés, coreano, hindi y muchos más) además de 22 dialectos chinos. El modelo incluso puede diferenciar entre acentos dentro de un mismo idioma.
Todo en uno – La detección de idioma, el reconocimiento de voz y la predicción de marcas de tiempo se envuelven en una sola llamada de inferencia. No se necesitan bibliotecas externas de identificación de idioma.
Rendimiento de última generación – En LibriSpeech, Qwen3‑ASR‑1.7B alcanza un WER de 1,63 % (vs 2,78 % para Whisper‑large‑v3). Para tareas de voz de canto, alcanza un WER de 5,98 %, superando las principales demostraciones comerciales.
Inferencia rápida y escalable – El backend vLLM ofrece 2000 × de rendimiento en 0.6B con 128 concurrencias. La inferencia en modo streaming te permite transcribir audio en vivo con una latencia inferior a un segundo.
Despliegue sencillo – Las imágenes Docker, los demos Gradio y una API compatible con OpenAI están disponibles de inmediato.

Empezando

A continuación se muestra una guía paso a paso para descargar, instalar y ejecutar Qwen3‑ASR. Todos los comandos asumen un shell estilo Unix.

1. Clonar el repositorio

git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR

2. Instalar dependencias

Crea un entorno limpio de Python 3.12:

conda create -n qwen3-asr python=3.12 -y
conda activate qwen3-asr

Instala el paquete principal:

pip install -U qwen-asr

Si quieres el backend vLLM:

pip install -U qwen-asr[vllm]

Tip – Activa FlashAttention‑2 para reducir la memoria de GPU y aumentar la velocidad:

pip install -U flash-attn --no-build-isolation

3. Descargar los pesos del modelo

Para usuarios fuera de China continental, el método más sencillo es a través de Hugging Face:

pip install -U "huggingface_hub[cli]"

huggingface-cli download Qwen/Qwen3-ASR-1.7B --local-dir ./Qwen3-ASR-1.7B
huggingface-cli download Qwen/Qwen3-ASR-0.6B --local-dir ./Qwen3-ASR-0.6B

Si estás en China continental, utiliza ModelScope:

pip install -U modelscope

modelscope download --model Qwen/Qwen3-ASR-1.7B --local_dir ./Qwen3-ASR-1.7B
modelscope download --model Qwen/Qwen3-ASR-0.6B --local_dir ./Qwen3-ASR-0.6B

4. Demo rápido de inferencia

import torch
from qwen_asr import Qwen3ASRModel

# Cargar el modelo transformer 1.7B
model = Qwen3ASRModel.from_pretrained(
    "Qwen/Qwen3-ASR-1.7B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    max_inference_batch_size=32,
    max_new_tokens=256,
)

# Transcribir un audio de muestra
results = model.transcribe(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
    language=None,  # Auto‑detect
)

print("Predicted language:", results[0].language)
print("Transcription:", results[0].text)

5. Inferencia en streaming (vLLM)

import torch
from qwen_asr import Qwen3ASRModel

if __name__ == "__main__":
    model = Qwen3ASRModel.LLM(
        model="Qwen/Qwen3-ASR-1.7B",
        gpu_memory_utilization=0.7,
        max_inference_batch_size=128,
        max_new_tokens=4096,
    )
    # Ejemplo de streaming omitido por brevedad – consulte el repositorio para el script completo

6. Alineación forzada

Qwen3‑ForcedAligner‑0.6B puede proporcionar marcas de tiempo a nivel de palabra para hasta 5 minutos de discurso.

import torch
from qwen_asr import Qwen3ForcedAligner

aligner = Qwen3ForcedAligner.from_pretrained(
    "Qwen/Qwen3-ForcedAligner-0.6B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
)

alignment = aligner.align(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_zh.wav",
    text="甚至出现交易几乎停滞的情况。",
    language="Chinese",
)

for word in alignment[0]:
    print(word.text, word.start_time, word.end_time)

Resumen de los puntos de referencia

| Conjunto de datos | Qwen3‑ASR‑1.7B | Whisper‑large‑v3 |
|--------------------|----------------|-----------------|
| LibriSpeech | **1.63 %** | 2.78 % |
| Fleurs‑en | **3.35 %** | 5.70 % |
| Singing Voice | **5.98 %** | 7.88 % |

La versión 0.6B ofrece una mejora de velocidad 2 × con un aumento modesto de 0,4 % en WER, lo que la hace ideal para aplicaciones de baja latencia.

Despliegue con vLLM en producción

Instalar vLLM – utiliza la rueda nightly para compatibilidad con GPU 12/9.

uv venv
uv pip install -U vllm --pre --extra-index-url https://wheels.vllm.ai/nightly/cu129
uv pip install "vllm[audio]"

Lanzar un servidor local

vllm serve Qwen/Qwen3-ASR-1.7B

Consultar a través del SDK de OpenAI

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="Qwen/Qwen3-ASR-1.7B",
    messages=[{"role": "user", "content": [{"type": "audio_url", "audio_url": {"url": "<YOUR_AUDIO_URL>"}}]}
    ],
)
print(response.choices[0].message.content)

Siéntete libre de exponer el servidor detrás de Nginx o cualquier puerta de enlace API; los puntos finales compatibles con OpenAI hacen que la integración sea trivial.

Inicio rápido basado en Docker

docker run --gpus all --name qwen3-asr \
  -p 8000:80 \
  -v /your/workspace:/data/shared/Qwen3-ASR \
  qwenllm/qwen3-asr:latest

El contenedor expondrá la interfaz Gradio en http://localhost:8000 y la API vLLM en 0.0.0.0:8000.

Resumen

Qwen3‑ASR es más que un nuevo modelo de ASR de código abierto. Es un ecosistema completo que ofrece:

Transcripción multilingüe de alta calidad – 52 idiomas, 22 dialectos chinos.
Inferencia en tiempo real y por lotes – mediante transformers, vLLM o streaming.
Alineación forzada – marcas de tiempo rápidas y no autorregresivas.
Demostraciones sin configuración – UI Gradio, Docker y servidores API.

Ya sea que estés construyendo un bot de atención al cliente multilingüe, un servicio de transcripción musical o un prototipo de investigación, Qwen3‑ASR te ofrece el rendimiento de una API comercial a una fracción del costo.

Comienza ahora clonando el repositorio, descargando los pesos y ejecutando los scripts de ejemplo. La comunidad está activa en GitHub y Discord, así que comparte tus casos de uso y ayuda a dar forma a la próxima generación de reconocimiento de voz de código abierto.

Artículo original: Ver original

Compartir este artículo