Voice‑Pro：多语种媒体的开源 AI 配音工作室

January 16, 2026

分类: 实用开源项目

标签:

Open Source text-to-speech Voice Cloning multilingual translation AI webui

Voice‑Pro：一站式开源 AI 配音工作室

AI 驱动的媒体创作领域正迅速扩张。如果您一直在寻找一款免费、开源的解决方案，统一文本转语音 (TTS)、声音克隆、实时翻译和多媒体处理——那就不必再犹豫，Voice‑Pro 正是您所需。

Voice‑Pro 是什么？

开源 Web UI：基于 Gradio 5.14.0，采用 GPL‑3.0 许可证发布。
语音识别：由 Whisper、Faster‑Whisper、Whisper‑Timestamped 和 WhisperX 提供支持。
零样本声音克隆：E2‑TTS、F5‑TTS、CosyVoice 以及 Kokoro。
文本转语音：Edge‑TTS (100+ 语言，400+ 语音)、Kokoro（HF TTS Arena 排名第二）以及可选付费 Azure TTS。
多语言翻译：使用 Deep‑Translator（100+ 语言，Azure Translator 可选）。
YouTube 下载器：yt‑dlp + 音频分离：Demucs + 字幕生成。
支持：Windows（NVIDIA GPU）、macOS 以及 Linux。

谁能受益？

播客主 & YouTube 制作者：使用 AI 语音无需订阅费用即可配音节目。
教育者 & 电子学习创作者：为视频生成多语言字幕和翻译。
开发者 & 研究者：在沙盒环境中尝试最前沿的 TTS 模型。
内容创作者：制作卡拉 OK 曲目或 AI 生成有声书。

入门 – 安装

前置条件

组件	最低配置	建议配置
操作系统	Windows 10/11、macOS 10.15+、Ubuntu 20.04+	所有平台
GPU	CPU 可无 GPU，若无则需 NVIDIA CUDA 12.4	NVIDIA 8 GB+ VRAM
内存	4 GB	8 GB+
磁盘	20 GB 可用	30 GB+

克隆仓库

git clone https://github.com/abus-aikorea/voice-pro.git
cd voice-pro

配置（Windows）

configure.bat   # 安装 ffmpeg、检查 CUDA、下载模型

配置（macOS/Linux）

chmod +x configure.sh
./configure.sh

提示：首次运行会下载大型模型检查点 (约 10 GB)。请确保网络速度较快。

运行 WebUI

start.bat   # Windows

./start.sh  # macOS/Linux

Gradio 接口将以 http://127.0.0.1:7870/ 启动。请在浏览器中打开。

使用 Voice‑Pro – 步骤详解

上传视频或音频 – 在『配音工作室』选项卡中粘贴 YouTube 链接或上传 MP4/WAV 文件。
提取音频 – 工具自动调用 yt‑dlp 获取视频音轨，并使用 Demucs 分离人声。
转录 – WhisperX 在目标语言中生成高质量字幕（>100 语言可选）。
翻译 – 通过 Deep‑Translator 进行即时翻译。
选择语音 – 通过 Edge‑TTS 选择现有语音，或使用 F5‑TTS/CosyVoice 克隆参考样本，无需微调。
合成 – 使用 TTS 并可调节速度、音量、音高。导出为 WAV/FLAC/MP3。
同步 & 导出 – 自动生成 SRT 字幕，可上传至 YouTube 或本地保存。

高级功能

零样本克隆：无需模型训练，直接提供短音频片段即可。
自定义计算类型：切换 float32、float16 或 int8（量化）以平衡质量和 GPU 使用。
实时演示：在『实时翻译』选项卡中对着麦克风说话，字幕会实时出现。
类似 API 的接口：Gradio 服务器可被其他 Python 脚本包裹；参见 app/voice_pro.py 以获取示例。
社区语音库：贡献者可通过 GitHub Issues 添加新名人语音；精选列表托管于 celebrities30sREADME。

为什么 Voice‑Pro 超越 SaaS

Voice‑Pro 消除了订阅疲劳： - 免费：所有核心功能均免费—无按分钟计费。 - 开源：您可修改 TTS 流程或集成自有模型。 - GPU 灵活：可在笔记本运行，也可部署到云端 GPU 实例。 - 功能齐全：支持与 ElevenLabs 等商业服务相同的 TTS 引擎，并提供更深入的控制。

故障排除快速修复

问题	解决方案
CUDA OOM	降低降噪等级或切换为 int8 计算
Whisper 错误	确认已安装 `requirements-voice-gpu.txt` 或 `-cpu.txt`；删除 `installer_files` 后重新运行 `configure`
字幕不同步	在『WhisperX』选项卡重新对齐时间戳

社区与后续

浏览 GitHub Discussions，提交功能需求与支持请求。
通过添加新语音样本或优化现有模型来贡献。
尝试添加自有 Hugging Face pipeline——模块化设计使其非常直观。
若需企业级质量，可赞助仓库或购买“高级”升级（Azure TTS/Translator）。

结语

Voice‑Pro 是一款强大、零成本的 AI 配音替代方案。其模块化开源特性意味着您不会被绑在 vendor；您既拥有代码、模型，也掌握输出结果。无论您是想用 12 种语言为视频配音的 YouTuber、需要快速原型化声纹克隆的科研实验室，还是在语言课程中使用的学生——Voice‑Pro 都能让您在几分钟内将语音与文本转换为高保真音频。

今天就开始吧，将 AI 音频的未来带入您的项目——无需支付一分钱。

原始文章: 查看原文

分享这篇文章