Voice-Pro:一款开源的全能AI音频与配音套件

Voice-Pro 是一个强大的、基于 Gradio 的开源 WebUI,它将最先进的语音克隆、转录和翻译工具整合到一个工作流程中。

对于创作者和开发者来说,当前 AI 音频工具的格局是碎片化的。你经常需要在 YouTube 下载器、单独的人声分离工具、转录服务和语音克隆平台之间来回切换。Voice-Pro 改变了这一现状,它将这些基本任务整合到一个统一的、基于 Gradio 的 WebUI 中。

该项目最初是一个商业项目,但开发者最近将整个代码库开源,使其成为 ElevenLabs 或 Descript 等订阅制平台的一个强大、免费的替代方案。

什么是 Voice-Pro?

Voice-Pro 被设计成一个“配音工作室”,处理多媒体内容创作的整个流程。无论你是希望将内容翻译成多种语言的播客主,还是正在构建自动化视频处理管道的开发者,这个工具都为当今可用的最佳开源模型提供了一个统一的界面。

核心能力:

  • 音频提取: 内置 yt-dlp 支持,可直接下载和处理 YouTube 内容。
  • 人声分离: 使用 Demucs 将人声与背景音乐清晰分离,这对于高质量的语音克隆至关重要。
  • 语音转文本 (STT): 支持多种 Whisper 实现,包括 Faster-WhisperWhisper-TimestampedWhisperX,可实现高精度的逐词转录。
  • 零样本语音克隆: 采用 F5-TTSE2-TTSCosyVoice 等尖端模型,允许你使用最少的参考音频克隆语音。
  • 文本转语音 (TTS): 包含 Edge-TTS 用于高质量、自然流畅的语音,以及 kokoro,一个目前在 HuggingFace 排行榜上备受关注的高性能 TTS 模型。
  • 翻译: 集成了 Deep-Translator,可即时支持 100 多种语言的多语言翻译。

为什么开发者应该关注

与按分钟收费的 SaaS 平台不同,Voice-Pro 是一个自托管解决方案。如果你拥有 NVIDIA GPU(至少 4GB-8GB 显存),你可以在本地运行这些模型,无需担心 API 成本或数据隐私问题。

技术栈亮点:

  • 框架: 基于 Python 3.10.15 和 Gradio 5.14.0 构建。
  • 计算: 针对 CUDA 12.4 进行了优化,确保语音克隆和转录等繁重任务的快速推理。
  • 可扩展性: 由于是开源的,你可以修改 start-voice.pyone_click.py 脚本,以集成你自己的自定义模型或微调权重。

快速开始

安装被设计为 Windows 用户的“一键式”操作,同时也兼容 Linux 和 Mac 环境。

  1. 克隆仓库:
    git clone https://github.com/abus-aikorea/voice-pro.git
    
  2. 配置环境: 运行 configure.bat(在 Linux/Mac 上运行 configure.sh)。此脚本负责处理设置 Git、FFmpeg 和必要的 CUDA 依赖项等繁重工作。
  3. 启动 UI: 运行 start.bat。首次运行时,应用程序将下载必要的模型权重(例如 9GB 的 CosyVoice 模型),因此请确保你拥有稳定的互联网连接。

故障排除与优化

  • CUDA 内存不足 (OOM): 如果遇到内存限制,请尝试将 Denoise 级别设置为 0 或 1。此外,使用 int 计算类型代替 float 可以显著减少显存使用,但会略微降低质量。
  • 字幕质量: 如果转录结果不符合你的标准,请记住模型大小很重要。虽然 large 模型提供最佳准确性,但它们需要更多的计算资源。如果你在消费级硬件上处理长格式内容,可以尝试使用 mediumsmall 模型。

总结

Voice-Pro 代表了开源 AI 社区的最佳成果。通过将 F5-TTS 和 WhisperX 等复杂模型封装到用户友好的 WebUI 中,它降低了高质量内容创作的门槛。无论你是将其用于个人项目,还是作为自己 AI 驱动应用的基础,这都是一个值得探索的仓库。

GitHub 上查看该项目以贡献代码或查看最新更新。

来源

abus-aikorea/voice-pro: 面向创作者和开发者的 Gradio WebUI,集成了关键 TTS(Edge-TTS、kokoro)和零样本语音克隆(E2 & F5-TTS、CosyVoice),以及 Whisper 音频处理、YouTube 下载、Demucs 人声分离和多语言翻译。