标记为: ASR

Content related to ASR

VibeVoice:Microsoft 的开源语音 AI 套件

March 15, 2026

探索 VibeVoice,Microsoft 的前沿开源工具包,为开发者与研究人员提供长时段 ASR、多说话人 TTS 与实时流式处理。了解如何利用其 60 分钟 ASR 流程、90 分钟 TTS 以及轻量级实时模型,并探索与 Hugging Face Transformers 的集成,实现无缝部署。

Qwen3‑ASR:阿里巴巴开源 52 语言 ASR 模型

January 31, 2026

阿里云最新发布的 Qwen3‑ASR 将最先进的多语言语音识别技术带入开源社区。支持 52 种语言和 22 种中文方言,1.7B/0.6B 两个模型在基准测试中表现优异,足以与商业 API 一较高下。本仓库配备完整的推理工具包,兼容 Transformers 或高性能 vLLM 后端,支持 Qwen3‑ForcedAligner 自动时间戳,并提供即跑的 Gradio 演示。无论你是研究员、开发者还是业余爱好者,本指南将引导你完成下载、配置、基准测试以及在 Docker 或直接在 GPU 上部署 Qwen3‑ASR,让你轻松开始转录语音、音乐和歌曲。 主要亮点: - 多语言支持 - 流式推理 - 强制对齐 - 快速启动脚本 - Docker 部署 - 与 OpenAI 兼容的 API 集成