Voice‑Pro:多语种媒体的开源 AI 配音工作室

Voice‑Pro:一站式开源 AI 配音工作室

AI 驱动的媒体创作领域正迅速扩张。如果您一直在寻找一款免费、开源的解决方案,统一文本转语音 (TTS)、声音克隆、实时翻译和多媒体处理——那就不必再犹豫,Voice‑Pro 正是您所需。

Voice‑Pro 是什么?

  • 开源 Web UI:基于 Gradio 5.14.0,采用 GPL‑3.0 许可证发布。
  • 语音识别:由 Whisper、Faster‑Whisper、Whisper‑Timestamped 和 WhisperX 提供支持。
  • 零样本声音克隆:E2‑TTS、F5‑TTS、CosyVoice 以及 Kokoro。
  • 文本转语音:Edge‑TTS (100+ 语言,400+ 语音)、Kokoro(HF TTS Arena 排名第二)以及可选付费 Azure TTS。
  • 多语言翻译:使用 Deep‑Translator(100+ 语言,Azure Translator 可选)。
  • YouTube 下载器:yt‑dlp + 音频分离:Demucs + 字幕生成
  • 支持:Windows(NVIDIA GPU)、macOS 以及 Linux。

谁能受益?

  • 播客主 & YouTube 制作者:使用 AI 语音无需订阅费用即可配音节目。
  • 教育者 & 电子学习创作者:为视频生成多语言字幕和翻译。
  • 开发者 & 研究者:在沙盒环境中尝试最前沿的 TTS 模型。
  • 内容创作者:制作卡拉 OK 曲目或 AI 生成有声书。

入门 – 安装

前置条件

组件 最低配置 建议配置
操作系统 Windows 10/11、macOS 10.15+、Ubuntu 20.04+ 所有平台
GPU CPU 可无 GPU,若无则需 NVIDIA CUDA 12.4 NVIDIA 8 GB+ VRAM
内存 4 GB 8 GB+
磁盘 20 GB 可用 30 GB+

克隆仓库

git clone https://github.com/abus-aikorea/voice-pro.git
cd voice-pro

配置(Windows)

configure.bat   # 安装 ffmpeg、检查 CUDA、下载模型

配置(macOS/Linux)

chmod +x configure.sh
./configure.sh

提示:首次运行会下载大型模型检查点 (约 10 GB)。请确保网络速度较快。

运行 WebUI

start.bat   # Windows
./start.sh  # macOS/Linux
Gradio 接口将以 http://127.0.0.1:7870/ 启动。请在浏览器中打开。

使用 Voice‑Pro – 步骤详解

  1. 上传视频或音频 – 在『配音工作室』选项卡中粘贴 YouTube 链接或上传 MP4/WAV 文件。
  2. 提取音频 – 工具自动调用 yt‑dlp 获取视频音轨,并使用 Demucs 分离人声。
  3. 转录 – WhisperX 在目标语言中生成高质量字幕(>100 语言可选)。
  4. 翻译 – 通过 Deep‑Translator 进行即时翻译。
  5. 选择语音 – 通过 Edge‑TTS 选择现有语音,或使用 F5‑TTS/CosyVoice 克隆参考样本,无需微调。
  6. 合成 – 使用 TTS 并可调节速度、音量、音高。导出为 WAV/FLAC/MP3。
  7. 同步 & 导出 – 自动生成 SRT 字幕,可上传至 YouTube 或本地保存。

高级功能

  • 零样本克隆:无需模型训练,直接提供短音频片段即可。
  • 自定义计算类型:切换 float32、float16 或 int8(量化)以平衡质量和 GPU 使用。
  • 实时演示:在『实时翻译』选项卡中对着麦克风说话,字幕会实时出现。
  • 类似 API 的接口:Gradio 服务器可被其他 Python 脚本包裹;参见 app/voice_pro.py 以获取示例。
  • 社区语音库:贡献者可通过 GitHub Issues 添加新名人语音;精选列表托管于 celebrities30sREADME

为什么 Voice‑Pro 超越 SaaS

Voice‑Pro 消除了订阅疲劳: - 免费:所有核心功能均免费—无按分钟计费。 - 开源:您可修改 TTS 流程或集成自有模型。 - GPU 灵活:可在笔记本运行,也可部署到云端 GPU 实例。 - 功能齐全:支持与 ElevenLabs 等商业服务相同的 TTS 引擎,并提供更深入的控制。

故障排除快速修复

问题 解决方案
CUDA OOM 降低降噪等级或切换为 int8 计算
Whisper 错误 确认已安装 requirements-voice-gpu.txt-cpu.txt;删除 installer_files 后重新运行 configure
字幕不同步 在『WhisperX』选项卡重新对齐时间戳

社区与后续

  • 浏览 GitHub Discussions,提交功能需求与支持请求。
  • 通过添加新语音样本或优化现有模型来贡献。
  • 尝试添加自有 Hugging Face pipeline——模块化设计使其非常直观。
  • 若需企业级质量,可赞助仓库或购买“高级”升级(Azure TTS/Translator)。

结语

Voice‑Pro 是一款强大、零成本的 AI 配音替代方案。其模块化开源特性意味着您不会被绑在 vendor;您既拥有代码、模型,也掌握输出结果。无论您是想用 12 种语言为视频配音的 YouTuber、需要快速原型化声纹克隆的科研实验室,还是在语言课程中使用的学生——Voice‑Pro 都能让您在几分钟内将语音与文本转换为高保真音频。

今天就开始吧,将 AI 音频的未来带入您的项目——无需支付一分钱。

原创文章: 查看原文

分享本文