鱼语:先进的开源语音合成系统

July 29, 2025

Fish-Speech 现已更名为 OpenAudio:开启下一代语音合成新篇章

领先的开源文本转语音(TTS)项目 Fish-Speech,现已正式更名为 OpenAudio。此次更名标志着项目迈入了新的发展阶段,并推出了一系列先进的 TTS 模型,包括旗舰级的 OpenAudio S1 和轻量级的 OpenAudio S1-mini。在 Fish-Speech 坚实的基础上,OpenAudio 模型在音质、性能和功能上都得到了显著提升,进一步巩固了其在语音合成领域的领先地位。

OpenAudio(原 Fish-Speech)核心亮点:

  • 行业领先的音质: 在 Seed TTS Eval Metrics 英文文本评估中,OpenAudio S1 实现了 0.008 的词错误率(WER)和 0.004 的字符错误率(CER),为生成自然流畅的语音树立了新标杆。
  • TTS-Arena2 评测冠军: OpenAudio S1 在 TTS-Arena2 评测中荣获第一名。该评测是衡量文本转语音系统性能的权威基准,充分证明了 OpenAudio S1 在音质和综合表现上的卓越性。
  • 高级语音控制: OpenAudio S1 不仅限于基础的文本转语音,更提供了对语音输出的精细化控制。用户可以轻松注入喜怒哀乐等多种情绪(如 (愤怒)(悲伤)(兴奋))、语调(如 (急促的语气)(耳语)),甚至加入笑声(如 (大笑)(咯咯笑))和叹息(如 (叹气))等特殊音效,实现富有表现力且细致入微的语音生成。
  • 零样本与少样本语音克隆: 该系统仅需 10-30 秒的语音样本即可实现高质量语音克隆,能够以目标声音生成高保真度的 TTS 输出。这一功能极大地降低了定制语音合成的门槛。
  • 多语言及跨语言能力: OpenAudio 支持多种语言的文本处理,包括英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。其强大的泛化能力,使其无需依赖音素即可处理不同语言的文本脚本。
  • 高效快速的推理: 经过 torch compile 优化后,模型在 Nvidia RTX 4090 GPU 上可实现约 1:7 的实时因子(RTF),确保了语音生成的速度和响应性。
  • 便捷易用的用户界面: OpenAudio 提供了基于 Gradio 的 WebUI,方便用户在浏览器中进行推理;同时也有基于 PyQt6 的 GUI 桌面应用,支持 Windows、Linux 和 macOS 等操作系统。此外,通过原生推理服务器,部署也更为简便。

模型可用性:

  • OpenAudio S1: 拥有 40 亿参数的旗舰模型,可在 fish.audio 网站上获取。
  • OpenAudio S1-mini: 经过蒸馏的轻量级模型,拥有 5 亿参数,专注于核心能力优化,可在 Hugging Face Spaces 上获取。

两个模型均集成了在线强化学习(RLHF),进一步优化了输出质量。凭借强大的社区支持、详尽的文档以及持续的代码提交和版本发布,OpenAudio(前身为 Fish-Speech)强烈推荐给所有关注前沿语音合成技术的用户。欢迎前往 GitHub 探索该项目,贡献代码或将强大的功能集成到您的应用程序中。

原创文章: 查看原文

分享本文