VibeVoice：Microsoft 的开源语音 AI 套件

March 15, 2026

分类: 实用开源项目

标签:

Introduction

Microsoft 的 VibeVoice 是一款下一代、完全开源的语音 AI 研究框架。它将文本转语音（TTS）和自动语音识别（ASR）合二为一，提供前所未有的处理速度、说话人感知生成，以及对长时段音频的支持——同时保持足够轻量化，能够在普通硬件上运行。

该仓库托管在 GitHub（https://github.com/microsoft/VibeVoice），已累计超过 23 k 星标，拥有活跃的贡献者、频繁的发布以及与 Hugging Face 生态系统的整合。

Key Features at a Glance

Feature	Description
Long‑form ASR	以单次处理的方式，将最长 60 分钟连续音频转录为文字。输出包括说话人划分、时间戳以及结构化的转录（谁、何时、何事）。
Multi‑speaker TTS	生成最长 90 分钟的对话式音频，支持每段对话最多四位不同说话人。多语言自然且富有表现力的韵律。
Real‑time Streaming TTS	轻量化模型（0.5 B 参数），可接收流式文本，首音可闻延迟约 300 ms，能够生成约 10 分钟长的语音。
Fast Inference	采用 vLLM 引擎进行 GPU 加速推理，相比基准模型延迟下降 3–5 倍。
Multilingual Support	ASR 支持 50+ 语言，TTS 亦涵盖多种语言。热词自定义功能允许用户引导识别到特定领域词汇。
Open‑Source License	MIT 许可证，鼓励在负责任的 AI 指南下进行研究与商业试验。

Models in Detail

1. VibeVoice‑ASR‑7B

此统一的语音转文字模型可接受最长 60 分钟音频，利用连续语音分词器以超低帧率（7.5 Hz）进行分词，并以大型语言模型（LLM）驱动的上下文扩散框架生成下一个 token。结果是一份连贯的转录，包含说话人归属及准确的时间戳。

# Quick test
pip install --upgrade transformers==4.51.3
from transformers import AutoProcessor, VibeVoiceASR
model = VibeVoiceASR.from_pretrained(\"microsoft/VibeVoice-ASR-7B\")
processor = AutoProcessor.from_pretrained(\"microsoft/VibeVoice-ASR-7B\")
input_audio = processor(load_audio(\"speech.wav\"), sampling_rate=16000, return_tensors=\"pt\")
transcription = model.generate(**input_audio)
print(transcription.text)

Use Cases

转录播客或长时间会议。
为视频内容生成带说话人识别的字幕。
广播行业的低延迟字幕。

2. VibeVoice‑TTS‑1.5B

一款多说话人、长时段 TTS 引擎，能够一次性处理 90 分钟语音。扩散模型保证了高保真音频细节，同时语义 transformer 指导表达性、情境感知的韵律。

from transformers import AutoProcessor, VibeVoiceTTS
model = VibeVoiceTTS.from_pretrained(\"microsoft/VibeVoice-TTS-1.5B\")
processor = AutoProcessor.from_pretrained(\"microsoft/VibeVoice-TTS-1.5B\")
inputs = processor(\"Hello, world!\", return_tensors=\"pt\")
audio = model.generate(**inputs)
audio.audio_output.save(\"output.wav\")

Highlights

支持多达 4 位说话人，自然的交替。
多语言合成——英、汉、西、法等。
适用于播客、有声书、对话模拟。

3. VibeVoice‑Realtime‑0.5B

轻量级、实时生成模型。首音可闻延迟约 300 ms，极适合直播字幕、语音助手以及交互式叙事。

# Streaming demo (Colab link: https://colab.research.google.com/...)

Integration with Hugging Face Transformers

2026 年 3 月，Microsoft 将 VibeVoice‑ASR 以原生 Hugging Face Transformer 模型发布。这意味着你现在可以像加载任何其他 transformer 一样加载它：

from transformers import VibeVoiceASR
model = VibeVoiceASR.from_pretrained(\"microsoft/VibeVoice-ASR-7B\")

该集成同样支持基于 vLLM 的推理，能让你用极少代码搭建快速 GPU Web 服务。

Getting Started

克隆仓库：git clone https://github.com/microsoft/VibeVoice.git
安装依赖：pip install -r requirements.txt
运行演示：python demo.py --model=VibeVoice-ASR-7B
在 Hugging Face 模型页面查阅 API 密钥与推理接口。

docs/ 文件夹包含详细使用说明、许可证要求以及贡献者指南。

Responsible Use

与所有高保真音频生成工具相似，VibeVoice 可能被滥用来制作深度伪造或误导信息。Microsoft 建议开发者：

在使用合成语音时添加明确的免责声明。
在发布前验证转录结果。
参考仓库中的风险文档。

模型采用 MIT 许可证，但使用须符合当地法律以及 Microsoft 的 Responsible AI 原则。

Community & Contributions

VibeVoice 在其活跃的贡献者社区中欢迎针对新声音、改进分词器及提升性能基准的 Pull Request。CONTRIBUTING.md 文件阐述了如何参与。

Conclusion

Microsoft 的 VibeVoice 让高级语音 AI 变得更普及。无论是构建播客工作室、多语言转录服务，还是 AR/VR 语音交互，VibeVoice 都能为你提供快速、精准且开源的工具。深入仓库，尝试 API，加入塑造语音技术未来的社区。

欲获取最新更新，请关注仓库或访问官方页面 https://microsoft.github.io/VibeVoice/。

原始文章: 查看原文

分享这篇文章