Voice-Pro：一款开源的全能AI音频与配音套件

对于创作者和开发者来说，当前 AI 音频工具的格局是碎片化的。你经常需要在 YouTube 下载器、单独的人声分离工具、转录服务和语音克隆平台之间来回切换。Voice-Pro 改变了这一现状，它将这些基本任务整合到一个统一的、基于 Gradio 的 WebUI 中。

该项目最初是一个商业项目，但开发者最近将整个代码库开源，使其成为 ElevenLabs 或 Descript 等订阅制平台的一个强大、免费的替代方案。

Voice-Pro 被设计成一个“配音工作室”，处理多媒体内容创作的整个流程。无论你是希望将内容翻译成多种语言的播客主，还是正在构建自动化视频处理管道的开发者，这个工具都为当今可用的最佳开源模型提供了一个统一的界面。

音频提取： 内置 yt-dlp 支持，可直接下载和处理 YouTube 内容。
人声分离： 使用 Demucs 将人声与背景音乐清晰分离，这对于高质量的语音克隆至关重要。
语音转文本 (STT)： 支持多种 Whisper 实现，包括 Faster-Whisper、Whisper-Timestamped 和 WhisperX，可实现高精度的逐词转录。
零样本语音克隆： 采用 F5-TTS、E2-TTS 和 CosyVoice 等尖端模型，允许你使用最少的参考音频克隆语音。
文本转语音 (TTS)： 包含 Edge-TTS 用于高质量、自然流畅的语音，以及 kokoro，一个目前在 HuggingFace 排行榜上备受关注的高性能 TTS 模型。
翻译： 集成了 Deep-Translator，可即时支持 100 多种语言的多语言翻译。

与按分钟收费的 SaaS 平台不同，Voice-Pro 是一个自托管解决方案。如果你拥有 NVIDIA GPU（至少 4GB-8GB 显存），你可以在本地运行这些模型，无需担心 API 成本或数据隐私问题。

安装被设计为 Windows 用户的“一键式”操作，同时也兼容 Linux 和 Mac 环境。

克隆仓库：

git clone https://github.com/abus-aikorea/voice-pro.git

配置环境： 运行 configure.bat（在 Linux/Mac 上运行 configure.sh）。此脚本负责处理设置 Git、FFmpeg 和必要的 CUDA 依赖项等繁重工作。
启动 UI： 运行 start.bat。首次运行时，应用程序将下载必要的模型权重（例如 9GB 的 CosyVoice 模型），因此请确保你拥有稳定的互联网连接。

CUDA 内存不足 (OOM)： 如果遇到内存限制，请尝试将 Denoise 级别设置为 0 或 1。此外，使用 int 计算类型代替 float 可以显著减少显存使用，但会略微降低质量。
字幕质量： 如果转录结果不符合你的标准，请记住模型大小很重要。虽然 large 模型提供最佳准确性，但它们需要更多的计算资源。如果你在消费级硬件上处理长格式内容，可以尝试使用 medium 或 small 模型。

Voice-Pro 代表了开源 AI 社区的最佳成果。通过将 F5-TTS 和 WhisperX 等复杂模型封装到用户友好的 WebUI 中，它降低了高质量内容创作的门槛。无论你是将其用于个人项目，还是作为自己 AI 驱动应用的基础，这都是一个值得探索的仓库。

在 GitHub 上查看该项目以贡献代码或查看最新更新。

来源