标记为的帖子: ASR

Content related to ASR

VibeVoice：Microsoft 的开源语音 AI 套件

March 15, 2026

标签:

探索 VibeVoice，Microsoft 的前沿开源工具包，为开发者与研究人员提供长时段 ASR、多说话人 TTS 与实时流式处理。了解如何利用其 60 分钟 ASR 流程、90 分钟 TTS 以及轻量级实时模型，并探索与 Hugging Face Transformers 的集成，实现无缝部署。

阅读更多原始

实用开源项目

Qwen3‑ASR：阿里巴巴开源 52 语言 ASR 模型

January 31, 2026

标签:

Open Source Speech Recognition Alibaba ASR Multilingual

阿里云最新发布的 Qwen3‑ASR 将最先进的多语言语音识别技术带入开源社区。支持 52 种语言和 22 种中文方言，1.7B/0.6B 两个模型在基准测试中表现优异，足以与商业 API 一较高下。本仓库配备完整的推理工具包，兼容 Transformers 或高性能 vLLM 后端，支持 Qwen3‑ForcedAligner 自动时间戳，并提供即跑的 Gradio 演示。无论你是研究员、开发者还是业余爱好者，本指南将引导你完成下载、配置、基准测试以及在 Docker 或直接在 GPU 上部署 Qwen3‑ASR，让你轻松开始转录语音、音乐和歌曲。主要亮点： - 多语言支持 - 流式推理 - 强制对齐 - 快速启动脚本 - Docker 部署 - 与 OpenAI 兼容的 API 集成

阅读更多原始

分类

标记为的帖子: ASR

VibeVoice：Microsoft 的开源语音 AI 套件

Qwen3‑ASR：阿里巴巴开源 52 语言 ASR 模型