Voicebox:由 Qwen3‑TTS 提供支持的开源语音工作室

Voicebox:由 Qwen3‑TTS 提供支持的开源语音工作室

语音合成已不再是少数基于云的服务专属。通过 Voicebox——一款免费、以本地为中心、基于 Qwen3‑TTS 构建的应用程序,开发者和创作者可以完整掌控自己的语音数据,像数字音频工作站一样编辑多轨音频,并在 Apple Silicon 上更快地生成自然语音。

什么是 Voicebox?

  • Local‑first:所有推理、克隆和编辑都在您的硬件上完成——无需网络,无需订阅费用。
  • Open source:MIT 许可,完全社区驱动。
  • Multi‑track editing:想象数字音频工作站与文本转语音的结合。
  • Built with modern stack:Tauri (Rust) 为桌面端,React/TS 为 UI,FastAPI 为 API,MLX/Metal 为 GPU 加速。
  • Powered by Qwen3‑TTS:阿里巴巴突破性模型,凭借仅几秒即可克隆声音,生成高保真、富有表现力的语音。

核心功能一览

Feature Description
Voice Cloning 上传短音频片段或在应用内录音;模型在几秒钟内生成可复用的声音配置文件。
Timeline Editor 在时间线上排列多条声音轨道,裁剪或分割片段,添加标记——全部零延迟预览。
Multi‑Language Support 目前支持英语和中文,随着 Qwen3‑TTS 的扩展,更多语言即将上线。
Fast Inference on Apple Silicon 使用 MLX 后端配合原生 Metal 加速,在 M1/M2 设备上提升 4–5 倍速度。
REST API 公开 /generate/profiles 等端点,并自动生成 OpenAPI 文档。
Batch Generation 一次请求即可创建数十个音频文件——非常适合长篇内容。
Transcription 集成 Whisper 模型,实现设备端录音转写。
Export Options 以 WAV、MP3 或 OGG 导出音频,并将项目文件导出为 JSON,用于备份或分享。
Privacy & Security 除非您明确导出配置文件或项目,否则数据不离开您的机器。

架构快照

graph TD
  A[React‑TS Frontend] -->|REST| B[FastAPI Backend]
  B -->|PyTorch/MLX| C[Qwen3‑TTS Engine]
  B -->|Whisper| D[Transcription]
  B -->|SQLite| E[Database]
  subgraph Desktop
    F[tauri (Rust)] --> A
  end
  subgraph Web
    G[React‑TS app] --> A
  end
  • Frontend:React+TypeScript、Tailwind CSS、Zustand 与 React Query,用于状态管理与数据获取。
  • Backend:FastAPI 提供类型化 API、自动文档和异步性能。
  • Models:Qwen3‑TTS 和 Whisper 同时提供 PyTorch 与 MLX 后端,兼容多平台。
  • Persistence:SQLite 用于存储声音配置、项目元数据和生成历史。

如何开始

1. 安装

# On macOS (Apple Silicon)
brew install qt@5  # for Tauri dependencies
bun install
cd backend && pip install -r requirements.txt
bun run dev   # Launch the desktop app

对于 Windows 或基于 Intel 的 macOS,请从发布页面下载 MSI 或 ZIP。

2. 克隆声音

  1. 打开应用并点击 Create Profile
  2. 录制或上传 5–10 秒的清晰语音。
  3. 模型将生成名为 My Voice 的配置文件。
  4. 如果想分享该配置文件,请导出。

3. 构建故事

  1. 将新配置文件拖到时间线上。
  2. 输入脚本或粘贴自文档。
  3. 使用 Batch Generation 合成全文脚本。
  4. 使用时间线工具安排片段、裁剪和混合。
  5. 导出最终混音。

Voicebox 的闪光点

Use Case Why Voicebox Works Example Application
Podcast Production 全面时间线编辑、自动混音、本地隐私 用声音克隆录制主持人,并自动混合来宾
Game Dialogue 批量生成多角色对话 为 NPC 角色生成独有声音,支持即时重新生成
Accessibility Tools 支持离线语音合成,帮助视觉障碍人士 设备端屏幕阅读器或有声书
Voice Assistant 集成低延迟本地 API 构建永不泄露数据的自定义语音助手
Content Automation 自动生成视频旁白 规模化生成解释视频配音

扩展 Voicebox

  • Plugin System:添加新的声音模型(如 XTTS、Bark)或音频效果,作为独立的 Tauri 包。
  • Mobile Companion:未来计划开发手机 App,以局域网方式控制桌面 Voicebox 实例。
  • Real‑Time Synthesis:即将新增功能,可在音频生成时实时流式播放,实现现场表演。

社区与贡献

Voicebox 旨在友好且开放:

  • Contributing:欢迎提交 Pull Request;参见 CONTRIBUTING.md 了解设置流程。
  • Security:请遵循 SECURITY.md 合理报告问题。
  • Releases:新稳定版本已发布于 GitHub Releases。
  • Docs:运行时可通过 http://localhost:8000/docs 访问完整的 API 文档。

Bottom Line

Voicebox 将笔记本变成专业且隐私保护的语音工作室。无论你是在原型设计语音游戏、策划播客,还是构建个人无障碍工具,你都不再需要依赖昂贵的云 API。今天就加入,fork GitHub 仓库,开始打造始终受你掌控的语音体验。

原创文章: 查看原文

分享本文