Voicebox:由 Qwen3‑TTS 提供支持的开源语音工作室
Voicebox:由 Qwen3‑TTS 提供支持的开源语音工作室
语音合成已不再是少数基于云的服务专属。通过 Voicebox——一款免费、以本地为中心、基于 Qwen3‑TTS 构建的应用程序,开发者和创作者可以完整掌控自己的语音数据,像数字音频工作站一样编辑多轨音频,并在 Apple Silicon 上更快地生成自然语音。
什么是 Voicebox?
- Local‑first:所有推理、克隆和编辑都在您的硬件上完成——无需网络,无需订阅费用。
- Open source:MIT 许可,完全社区驱动。
- Multi‑track editing:想象数字音频工作站与文本转语音的结合。
- Built with modern stack:Tauri (Rust) 为桌面端,React/TS 为 UI,FastAPI 为 API,MLX/Metal 为 GPU 加速。
- Powered by Qwen3‑TTS:阿里巴巴突破性模型,凭借仅几秒即可克隆声音,生成高保真、富有表现力的语音。
核心功能一览
| Feature | Description |
|---|---|
| Voice Cloning | 上传短音频片段或在应用内录音;模型在几秒钟内生成可复用的声音配置文件。 |
| Timeline Editor | 在时间线上排列多条声音轨道,裁剪或分割片段,添加标记——全部零延迟预览。 |
| Multi‑Language Support | 目前支持英语和中文,随着 Qwen3‑TTS 的扩展,更多语言即将上线。 |
| Fast Inference on Apple Silicon | 使用 MLX 后端配合原生 Metal 加速,在 M1/M2 设备上提升 4–5 倍速度。 |
| REST API | 公开 /generate、/profiles 等端点,并自动生成 OpenAPI 文档。 |
| Batch Generation | 一次请求即可创建数十个音频文件——非常适合长篇内容。 |
| Transcription | 集成 Whisper 模型,实现设备端录音转写。 |
| Export Options | 以 WAV、MP3 或 OGG 导出音频,并将项目文件导出为 JSON,用于备份或分享。 |
| Privacy & Security | 除非您明确导出配置文件或项目,否则数据不离开您的机器。 |
架构快照
graph TD
A[React‑TS Frontend] -->|REST| B[FastAPI Backend]
B -->|PyTorch/MLX| C[Qwen3‑TTS Engine]
B -->|Whisper| D[Transcription]
B -->|SQLite| E[Database]
subgraph Desktop
F[tauri (Rust)] --> A
end
subgraph Web
G[React‑TS app] --> A
end
- Frontend:React+TypeScript、Tailwind CSS、Zustand 与 React Query,用于状态管理与数据获取。
- Backend:FastAPI 提供类型化 API、自动文档和异步性能。
- Models:Qwen3‑TTS 和 Whisper 同时提供 PyTorch 与 MLX 后端,兼容多平台。
- Persistence:SQLite 用于存储声音配置、项目元数据和生成历史。
如何开始
1. 安装
# On macOS (Apple Silicon)
brew install qt@5 # for Tauri dependencies
bun install
cd backend && pip install -r requirements.txt
bun run dev # Launch the desktop app
对于 Windows 或基于 Intel 的 macOS,请从发布页面下载 MSI 或 ZIP。
2. 克隆声音
- 打开应用并点击 Create Profile。
- 录制或上传 5–10 秒的清晰语音。
- 模型将生成名为 My Voice 的配置文件。
- 如果想分享该配置文件,请导出。
3. 构建故事
- 将新配置文件拖到时间线上。
- 输入脚本或粘贴自文档。
- 使用 Batch Generation 合成全文脚本。
- 使用时间线工具安排片段、裁剪和混合。
- 导出最终混音。
Voicebox 的闪光点
| Use Case | Why Voicebox Works | Example Application |
|---|---|---|
| Podcast Production | 全面时间线编辑、自动混音、本地隐私 | 用声音克隆录制主持人,并自动混合来宾 |
| Game Dialogue | 批量生成多角色对话 | 为 NPC 角色生成独有声音,支持即时重新生成 |
| Accessibility Tools | 支持离线语音合成,帮助视觉障碍人士 | 设备端屏幕阅读器或有声书 |
| Voice Assistant | 集成低延迟本地 API | 构建永不泄露数据的自定义语音助手 |
| Content Automation | 自动生成视频旁白 | 规模化生成解释视频配音 |
扩展 Voicebox
- Plugin System:添加新的声音模型(如 XTTS、Bark)或音频效果,作为独立的 Tauri 包。
- Mobile Companion:未来计划开发手机 App,以局域网方式控制桌面 Voicebox 实例。
- Real‑Time Synthesis:即将新增功能,可在音频生成时实时流式播放,实现现场表演。
社区与贡献
Voicebox 旨在友好且开放:
- Contributing:欢迎提交 Pull Request;参见
CONTRIBUTING.md了解设置流程。 - Security:请遵循
SECURITY.md合理报告问题。 - Releases:新稳定版本已发布于 GitHub Releases。
- Docs:运行时可通过
http://localhost:8000/docs访问完整的 API 文档。
Bottom Line
Voicebox 将笔记本变成专业且隐私保护的语音工作室。无论你是在原型设计语音游戏、策划播客,还是构建个人无障碍工具,你都不再需要依赖昂贵的云 API。今天就加入,fork GitHub 仓库,开始打造始终受你掌控的语音体验。
原创文章:
查看原文