Voice‑Pro:多语种媒体的开源 AI 配音工作室
January 16, 2026
类别:
实用开源项目
Voice‑Pro:一站式开源 AI 配音工作室
AI 驱动的媒体创作领域正迅速扩张。如果您一直在寻找一款免费、开源的解决方案,统一文本转语音 (TTS)、声音克隆、实时翻译和多媒体处理——那就不必再犹豫,Voice‑Pro 正是您所需。
Voice‑Pro 是什么?
- 开源 Web UI:基于 Gradio 5.14.0,采用 GPL‑3.0 许可证发布。
- 语音识别:由 Whisper、Faster‑Whisper、Whisper‑Timestamped 和 WhisperX 提供支持。
- 零样本声音克隆:E2‑TTS、F5‑TTS、CosyVoice 以及 Kokoro。
- 文本转语音:Edge‑TTS (100+ 语言,400+ 语音)、Kokoro(HF TTS Arena 排名第二)以及可选付费 Azure TTS。
- 多语言翻译:使用 Deep‑Translator(100+ 语言,Azure Translator 可选)。
- YouTube 下载器:yt‑dlp + 音频分离:Demucs + 字幕生成。
- 支持:Windows(NVIDIA GPU)、macOS 以及 Linux。
谁能受益?
- 播客主 & YouTube 制作者:使用 AI 语音无需订阅费用即可配音节目。
- 教育者 & 电子学习创作者:为视频生成多语言字幕和翻译。
- 开发者 & 研究者:在沙盒环境中尝试最前沿的 TTS 模型。
- 内容创作者:制作卡拉 OK 曲目或 AI 生成有声书。
入门 – 安装
前置条件
| 组件 | 最低配置 | 建议配置 |
|---|---|---|
| 操作系统 | Windows 10/11、macOS 10.15+、Ubuntu 20.04+ | 所有平台 |
| GPU | CPU 可无 GPU,若无则需 NVIDIA CUDA 12.4 | NVIDIA 8 GB+ VRAM |
| 内存 | 4 GB | 8 GB+ |
| 磁盘 | 20 GB 可用 | 30 GB+ |
克隆仓库
git clone https://github.com/abus-aikorea/voice-pro.git
cd voice-pro
配置(Windows)
configure.bat # 安装 ffmpeg、检查 CUDA、下载模型
配置(macOS/Linux)
chmod +x configure.sh
./configure.sh
提示:首次运行会下载大型模型检查点 (约 10 GB)。请确保网络速度较快。
运行 WebUI
start.bat # Windows
./start.sh # macOS/Linux
http://127.0.0.1:7870/ 启动。请在浏览器中打开。
使用 Voice‑Pro – 步骤详解
- 上传视频或音频 – 在『配音工作室』选项卡中粘贴 YouTube 链接或上传 MP4/WAV 文件。
- 提取音频 – 工具自动调用 yt‑dlp 获取视频音轨,并使用 Demucs 分离人声。
- 转录 – WhisperX 在目标语言中生成高质量字幕(>100 语言可选)。
- 翻译 – 通过 Deep‑Translator 进行即时翻译。
- 选择语音 – 通过 Edge‑TTS 选择现有语音,或使用 F5‑TTS/CosyVoice 克隆参考样本,无需微调。
- 合成 – 使用 TTS 并可调节速度、音量、音高。导出为 WAV/FLAC/MP3。
- 同步 & 导出 – 自动生成 SRT 字幕,可上传至 YouTube 或本地保存。
高级功能
- 零样本克隆:无需模型训练,直接提供短音频片段即可。
- 自定义计算类型:切换 float32、float16 或 int8(量化)以平衡质量和 GPU 使用。
- 实时演示:在『实时翻译』选项卡中对着麦克风说话,字幕会实时出现。
- 类似 API 的接口:Gradio 服务器可被其他 Python 脚本包裹;参见
app/voice_pro.py以获取示例。 - 社区语音库:贡献者可通过 GitHub Issues 添加新名人语音;精选列表托管于
celebrities30sREADME。
为什么 Voice‑Pro 超越 SaaS
Voice‑Pro 消除了订阅疲劳: - 免费:所有核心功能均免费—无按分钟计费。 - 开源:您可修改 TTS 流程或集成自有模型。 - GPU 灵活:可在笔记本运行,也可部署到云端 GPU 实例。 - 功能齐全:支持与 ElevenLabs 等商业服务相同的 TTS 引擎,并提供更深入的控制。
故障排除快速修复
| 问题 | 解决方案 |
|---|---|
| CUDA OOM | 降低降噪等级或切换为 int8 计算 |
| Whisper 错误 | 确认已安装 requirements-voice-gpu.txt 或 -cpu.txt;删除 installer_files 后重新运行 configure |
| 字幕不同步 | 在『WhisperX』选项卡重新对齐时间戳 |
社区与后续
- 浏览 GitHub Discussions,提交功能需求与支持请求。
- 通过添加新语音样本或优化现有模型来贡献。
- 尝试添加自有 Hugging Face pipeline——模块化设计使其非常直观。
- 若需企业级质量,可赞助仓库或购买“高级”升级(Azure TTS/Translator)。
结语
Voice‑Pro 是一款强大、零成本的 AI 配音替代方案。其模块化开源特性意味着您不会被绑在 vendor;您既拥有代码、模型,也掌握输出结果。无论您是想用 12 种语言为视频配音的 YouTuber、需要快速原型化声纹克隆的科研实验室,还是在语言课程中使用的学生——Voice‑Pro 都能让您在几分钟内将语音与文本转换为高保真音频。
今天就开始吧,将 AI 音频的未来带入您的项目——无需支付一分钱。
原创文章:
查看原文