VibeVoice:Microsoft 的开源语音 AI 套件

Introduction

Microsoft 的 VibeVoice 是一款下一代、完全开源的语音 AI 研究框架。它将文本转语音(TTS)和自动语音识别(ASR)合二为一,提供前所未有的处理速度、说话人感知生成,以及对长时段音频的支持——同时保持足够轻量化,能够在普通硬件上运行。

该仓库托管在 GitHub(https://github.com/microsoft/VibeVoice),已累计超过 23 k 星标,拥有活跃的贡献者、频繁的发布以及与 Hugging Face 生态系统的整合。


Key Features at a Glance

Feature Description
Long‑form ASR 以单次处理的方式,将最长 60 分钟连续音频转录为文字。输出包括说话人划分、时间戳以及结构化的转录(谁、何时、何事)。
Multi‑speaker TTS 生成最长 90 分钟的对话式音频,支持每段对话最多四位不同说话人。多语言自然且富有表现力的韵律。
Real‑time Streaming TTS 轻量化模型(0.5 B 参数),可接收流式文本,首音可闻延迟约 300 ms,能够生成约 10 分钟长的语音。
Fast Inference 采用 vLLM 引擎进行 GPU 加速推理,相比基准模型延迟下降 3–5 倍。
Multilingual Support ASR 支持 50+ 语言,TTS 亦涵盖多种语言。热词自定义功能允许用户引导识别到特定领域词汇。
Open‑Source License MIT 许可证,鼓励在负责任的 AI 指南下进行研究与商业试验。

Models in Detail

1. VibeVoice‑ASR‑7B

此统一的语音转文字模型可接受最长 60 分钟音频,利用连续语音分词器以超低帧率(7.5 Hz)进行分词,并以大型语言模型(LLM)驱动的上下文扩散框架生成下一个 token。结果是一份连贯的转录,包含说话人归属及准确的时间戳。

# Quick test
pip install --upgrade transformers==4.51.3
from transformers import AutoProcessor, VibeVoiceASR
model = VibeVoiceASR.from_pretrained(\"microsoft/VibeVoice-ASR-7B\")
processor = AutoProcessor.from_pretrained(\"microsoft/VibeVoice-ASR-7B\")
input_audio = processor(load_audio(\"speech.wav\"), sampling_rate=16000, return_tensors=\"pt\")
transcription = model.generate(**input_audio)
print(transcription.text)

Use Cases

  • 转录播客或长时间会议。
  • 为视频内容生成带说话人识别的字幕。
  • 广播行业的低延迟字幕。

2. VibeVoice‑TTS‑1.5B

一款多说话人、长时段 TTS 引擎,能够一次性处理 90 分钟语音。扩散模型保证了高保真音频细节,同时语义 transformer 指导表达性、情境感知的韵律。

from transformers import AutoProcessor, VibeVoiceTTS
model = VibeVoiceTTS.from_pretrained(\"microsoft/VibeVoice-TTS-1.5B\")
processor = AutoProcessor.from_pretrained(\"microsoft/VibeVoice-TTS-1.5B\")
inputs = processor(\"Hello, world!\", return_tensors=\"pt\")
audio = model.generate(**inputs)
audio.audio_output.save(\"output.wav\")

Highlights

  • 支持多达 4 位说话人,自然的交替。
  • 多语言合成——英、汉、西、法等。
  • 适用于播客、有声书、对话模拟。

3. VibeVoice‑Realtime‑0.5B

轻量级、实时生成模型。首音可闻延迟约 300 ms,极适合直播字幕、语音助手以及交互式叙事。

# Streaming demo (Colab link: https://colab.research.google.com/...)

Integration with Hugging Face Transformers

2026 年 3 月,Microsoft 将 VibeVoice‑ASR 以原生 Hugging Face Transformer 模型发布。这意味着你现在可以像加载任何其他 transformer 一样加载它:

from transformers import VibeVoiceASR
model = VibeVoiceASR.from_pretrained(\"microsoft/VibeVoice-ASR-7B\")

该集成同样支持基于 vLLM 的推理,能让你用极少代码搭建快速 GPU Web 服务。


Getting Started

  1. 克隆仓库:git clone https://github.com/microsoft/VibeVoice.git
  2. 安装依赖:pip install -r requirements.txt
  3. 运行演示:python demo.py --model=VibeVoice-ASR-7B
  4. 在 Hugging Face 模型页面查阅 API 密钥与推理接口。

docs/ 文件夹包含详细使用说明、许可证要求以及贡献者指南。


Responsible Use

与所有高保真音频生成工具相似,VibeVoice 可能被滥用来制作深度伪造或误导信息。Microsoft 建议开发者:

  • 在使用合成语音时添加明确的免责声明。
  • 在发布前验证转录结果。
  • 参考仓库中的风险文档。

模型采用 MIT 许可证,但使用须符合当地法律以及 Microsoft 的 Responsible AI 原则。


Community & Contributions

VibeVoice 在其活跃的贡献者社区中欢迎针对新声音、改进分词器及提升性能基准的 Pull Request。CONTRIBUTING.md 文件阐述了如何参与。


Conclusion

Microsoft 的 VibeVoice 让高级语音 AI 变得更普及。无论是构建播客工作室、多语言转录服务,还是 AR/VR 语音交互,VibeVoice 都能为你提供快速、精准且开源的工具。深入仓库,尝试 API,加入塑造语音技术未来的社区。

欲获取最新更新,请关注仓库或访问官方页面 https://microsoft.github.io/VibeVoice/。

原创文章: 查看原文

分享本文