VibeVoice:Microsoftのオープンソース音声AIスイート

Explore VibeVoice, Microsoft’s cutting‑edge open‑source toolkit that brings long‑form ASR, multi‑speaker TTS, and real‑time streaming to developers and researchers. Learn how to harness its 60‑minute ASR pipeline, 90‑minute TTS, and lightweight real‑time model, and discover integration with Hugging Face Transformers for seamless deployment.

はじめに

Microsoft の VibeVoice は、次世代の完全オープンソース音声AI研究フレームワークです。テキスト→音声(TTS)と自動音声認識(ASR)を統合し、前例のない処理速度、話者認識付き生成、長時間音声のサポートを提供しつつ、軽量で安価なハードウェアでも動作します。

GitHub(https://github.com/microsoft/VibeVoice)にホストされているリポジトリは、23,000 以上のスターを集め、頻繁なリリースと Hugging Face エコシステムとの統合が行われています。


主な機能の概要

機能 説明
長時間ASR 60 分までの連続音声を一括で文字起こし。話者分離、タイムスタンプ、Who‑When‑What 構造化トランスクリプトが出力されます。
マルチスピーカー TTS 90 分までの会話音声を合成。1 つの会話あたり最大 4 人の話者をサポートし、複数言語で自然で表現豊かなプロソディを実現します。
リアルタイムストリーミング TTS 0.5B パラメータの軽量モデル。ストリーミングテキストを受け取り、約 300 ms の初耳遅延で最大 10 分間の長時間音声を生成します。
高速推論 GPU 加速推論用に vLLM エンジンで構築。ベースラインと比較して 3–5 倍の遅延低減を実現します。
多言語サポート ASR で 50 以上、TTS で数多くの言語をサポート。ホットワードカスタマイズにより、ドメイン固有語彙への認識を誘導します。
オープンソースライセンス MIT ライセンス。研究・商用実験を負責的AIガイドラインに従い奨励します。

モデルの詳細

1. VibeVoice‑ASR‑7B

統一された音声→テキストモデル。最大 60 分の音声を受け取り、7.5 Hz の非常に低いフレームレートでトークナイズし、LLM による次トークン拡散フレームワークを適用。結果は、話者割り当てと正確なタイムスタンプを含む連続的なトランスクリプトです。

# Quick test
pip install --upgrade transformers==4.51.3
from transformers import AutoProcessor, VibeVoiceASR
model = VibeVoiceASR.from_pretrained("microsoft/VibeVoice-ASR-7B")
processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-ASR-7B")
input_audio = processor(load_audio("speech.wav"), sampling_rate=16000, return_tensors="pt")
transcription = model.generate(**input_audio)
print(transcription.text)

Use Cases

  • ポッドキャストや長時間会議の文字起こし。
  • 動画コンテンツの話者認識付き字幕生成。
  • 放送時の低遅延キャプション。

2. VibeVoice‑TTS‑1.5B

90 分までの長時間音声を生成できるマルチスピーカー TTS エンジン。拡散モデルが高音質の音響ディテールを保証し、セマンティックトランスフォーマーが文脈に応じた表現豊かなプロソディを指示します。

from transformers import AutoProcessor, VibeVoiceTTS
model = VibeVoiceTTS.from_pretrained("microsoft/VibeVoice-TTS-1.5B")
processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-TTS-1.5B")
inputs = processor("Hello, world!", return_tensors="pt")
audio = model.generate(**inputs)
audio.audio_output.save("output.wav")

Highlights

  • 最大 4 人の話者を自然に入れ替えて再生。
  • 英語、中国語、スペイン語、フランス語など多言語合成。
  • ポッドキャスト、オーディオブック、対話シミュレーションに最適。

3. VibeVoice‑Realtime‑0.5B

軽量でリアルタイム生成モデル。約 300 ms の起音遅延で、ライブキャプション、音声アシスタント、インタラクティブストーリーテリングに最適です。

# Streaming demo (Colab link: https://colab.research.google.com/...)

Hugging Face Transformers との統合

2026 年 3 月、Microsoft は VibeVoice‑ASR をネイティブ Hugging Face Transformers モデルとしてリリースしました。これにより、ほかのトランスフォーマーと同様にロードできます。

from transformers import VibeVoiceASR
model = VibeVoiceASR.from_pretrained("microsoft/VibeVoice-ASR-7B")

統合は vLLM ベースの推論にも延長され、最小限のコードで高速 GPU Web サービスをスポンジできます。


はじめに

  1. リポジトリをクローン: git clone https://github.com/microsoft/VibeVoice.git
  2. 依存関係をインストール: pip install -r requirements.txt
  3. デモを実行: python demo.py --model=VibeVoice-ASR-7B
  4. API キーと推論エンドポイントは Hugging Face モデルページで確認できます。

docs/ フォルダには詳細な使用ノート、ライセンス要件、貢献者ガイドラインが掲載されています。


責任ある利用

高精度音声生成ツールは、ディープフェイクや情報操作に悪用される恐れがあります。Microsoft は開発者に以下を推奨します。

  • 合成音声使用時には明示的な表示を行う。
  • 公開前に文字起こしを検証する。
  • リポジトリのリスク文書を確認する。

モデルは MIT ライセンスですが、使用は地域法および Microsoft の Responsible AI 原則に準拠する必要があります。


コミュニティと貢献

活発な貢献者コミュニティがあり、新しいボイス、改善されたトークナイザー、性能ベンチマークのプルリクエストを歓迎します。CONTRIBUTING.md で参加方法を解説しています。


結論

Microsoft の VibeVoice は、先進的な音声AIへの民主化を実現します。ポッドキャストスタジオ、多言語文字起こしサービス、AR/VR 音声インタラクションを構築する際、VibeVoice は高速で正確かつオープンソースのツールを提供します。リポジトリを参照し、API を試し、音声技術の未来を共に形作るコミュニティに参加してください。

最新情報はリポジトリをフォロー、または公式プロジェクトページ(https://microsoft.github.io/VibeVoice/)をご覧ください。