タグ付きの投稿: ASR

Content related to ASR

VibeVoice:Microsoftのオープンソース音声AIスイート

March 15, 2026

Explore VibeVoice, Microsoft’s cutting‑edge open‑source toolkit that brings long‑form ASR, multi‑speaker TTS, and real‑time streaming to developers and researchers. Learn how to harness its 60‑minute ASR pipeline, 90‑minute TTS, and lightweight real‑time model, and discover integration with Hugging Face Transformers for seamless deployment.

Qwen3‑ASR: アリババのオープンソース52言語ASRモデル

January 31, 2026

Alibaba Cloudの最新リリース、Qwen3‑ASRは、オープンソースコミュニティに最先端の多言語音声認識を提供します。52言語と22の中国方言に対応し、1.7B/0.6Bの2モデルはベンチマークで優れた性能を示し、商用APIと肩を並べます。リポジトリには、transformerか高速vLLMバックエンドで動作する完全な推論ツールキット、Qwen3‑ForcedAlignerによる自動タイムスタンプ機能、そしてすぐに実行できるGradioデモが同梱されています。研究者・開発者・趣味のユーザーを問わず、本ガイドではQwen3‑ASRをダウンロードし、設定し、ベンチマークし、Dockerもしくは直接GPU上でデプロイする方法を案内します。これにより、音声・音楽・歌の文字起こしを容易に開始できます。