VibeVoice:Microsoft 的开源语音 AI 套件
Introduction
Microsoft 的 VibeVoice 是一款下一代、完全开源的语音 AI 研究框架。它将文本转语音(TTS)和自动语音识别(ASR)合二为一,提供前所未有的处理速度、说话人感知生成,以及对长时段音频的支持——同时保持足够轻量化,能够在普通硬件上运行。
该仓库托管在 GitHub(https://github.com/microsoft/VibeVoice),已累计超过 23 k 星标,拥有活跃的贡献者、频繁的发布以及与 Hugging Face 生态系统的整合。
Key Features at a Glance
| Feature | Description |
|---|---|
| Long‑form ASR | 以单次处理的方式,将最长 60 分钟连续音频转录为文字。输出包括说话人划分、时间戳以及结构化的转录(谁、何时、何事)。 |
| Multi‑speaker TTS | 生成最长 90 分钟的对话式音频,支持每段对话最多四位不同说话人。多语言自然且富有表现力的韵律。 |
| Real‑time Streaming TTS | 轻量化模型(0.5 B 参数),可接收流式文本,首音可闻延迟约 300 ms,能够生成约 10 分钟长的语音。 |
| Fast Inference | 采用 vLLM 引擎进行 GPU 加速推理,相比基准模型延迟下降 3–5 倍。 |
| Multilingual Support | ASR 支持 50+ 语言,TTS 亦涵盖多种语言。热词自定义功能允许用户引导识别到特定领域词汇。 |
| Open‑Source License | MIT 许可证,鼓励在负责任的 AI 指南下进行研究与商业试验。 |
Models in Detail
1. VibeVoice‑ASR‑7B
此统一的语音转文字模型可接受最长 60 分钟音频,利用连续语音分词器以超低帧率(7.5 Hz)进行分词,并以大型语言模型(LLM)驱动的上下文扩散框架生成下一个 token。结果是一份连贯的转录,包含说话人归属及准确的时间戳。
# Quick test
pip install --upgrade transformers==4.51.3
from transformers import AutoProcessor, VibeVoiceASR
model = VibeVoiceASR.from_pretrained(\"microsoft/VibeVoice-ASR-7B\")
processor = AutoProcessor.from_pretrained(\"microsoft/VibeVoice-ASR-7B\")
input_audio = processor(load_audio(\"speech.wav\"), sampling_rate=16000, return_tensors=\"pt\")
transcription = model.generate(**input_audio)
print(transcription.text)
Use Cases
- 转录播客或长时间会议。
- 为视频内容生成带说话人识别的字幕。
- 广播行业的低延迟字幕。
2. VibeVoice‑TTS‑1.5B
一款多说话人、长时段 TTS 引擎,能够一次性处理 90 分钟语音。扩散模型保证了高保真音频细节,同时语义 transformer 指导表达性、情境感知的韵律。
from transformers import AutoProcessor, VibeVoiceTTS
model = VibeVoiceTTS.from_pretrained(\"microsoft/VibeVoice-TTS-1.5B\")
processor = AutoProcessor.from_pretrained(\"microsoft/VibeVoice-TTS-1.5B\")
inputs = processor(\"Hello, world!\", return_tensors=\"pt\")
audio = model.generate(**inputs)
audio.audio_output.save(\"output.wav\")
Highlights
- 支持多达 4 位说话人,自然的交替。
- 多语言合成——英、汉、西、法等。
- 适用于播客、有声书、对话模拟。
3. VibeVoice‑Realtime‑0.5B
轻量级、实时生成模型。首音可闻延迟约 300 ms,极适合直播字幕、语音助手以及交互式叙事。
# Streaming demo (Colab link: https://colab.research.google.com/...)
Integration with Hugging Face Transformers
2026 年 3 月,Microsoft 将 VibeVoice‑ASR 以原生 Hugging Face Transformer 模型发布。这意味着你现在可以像加载任何其他 transformer 一样加载它:
from transformers import VibeVoiceASR
model = VibeVoiceASR.from_pretrained(\"microsoft/VibeVoice-ASR-7B\")
该集成同样支持基于 vLLM 的推理,能让你用极少代码搭建快速 GPU Web 服务。
Getting Started
- 克隆仓库:
git clone https://github.com/microsoft/VibeVoice.git - 安装依赖:
pip install -r requirements.txt - 运行演示:
python demo.py --model=VibeVoice-ASR-7B - 在 Hugging Face 模型页面查阅 API 密钥与推理接口。
docs/ 文件夹包含详细使用说明、许可证要求以及贡献者指南。
Responsible Use
与所有高保真音频生成工具相似,VibeVoice 可能被滥用来制作深度伪造或误导信息。Microsoft 建议开发者:
- 在使用合成语音时添加明确的免责声明。
- 在发布前验证转录结果。
- 参考仓库中的风险文档。
模型采用 MIT 许可证,但使用须符合当地法律以及 Microsoft 的 Responsible AI 原则。
Community & Contributions
VibeVoice 在其活跃的贡献者社区中欢迎针对新声音、改进分词器及提升性能基准的 Pull Request。CONTRIBUTING.md 文件阐述了如何参与。
Conclusion
Microsoft 的 VibeVoice 让高级语音 AI 变得更普及。无论是构建播客工作室、多语言转录服务,还是 AR/VR 语音交互,VibeVoice 都能为你提供快速、精准且开源的工具。深入仓库,尝试 API,加入塑造语音技术未来的社区。
欲获取最新更新,请关注仓库或访问官方页面 https://microsoft.github.io/VibeVoice/。