鱼语：先进的开源语音合成系统

July 29, 2025

分类: 实用开源项目

标签:

Open Source AI Development tts Speech Synthesis Voice Cloning

Fish-Speech 现已更名为 OpenAudio：开启下一代语音合成新篇章

领先的开源文本转语音（TTS）项目 Fish-Speech，现已正式更名为 OpenAudio。此次更名标志着项目迈入了新的发展阶段，并推出了一系列先进的 TTS 模型，包括旗舰级的 OpenAudio S1 和轻量级的 OpenAudio S1-mini。在 Fish-Speech 坚实的基础上，OpenAudio 模型在音质、性能和功能上都得到了显著提升，进一步巩固了其在语音合成领域的领先地位。

OpenAudio（原 Fish-Speech）核心亮点：

行业领先的音质： 在 Seed TTS Eval Metrics 英文文本评估中，OpenAudio S1 实现了 0.008 的词错误率（WER）和 0.004 的字符错误率（CER），为生成自然流畅的语音树立了新标杆。
TTS-Arena2 评测冠军： OpenAudio S1 在 TTS-Arena2 评测中荣获第一名。该评测是衡量文本转语音系统性能的权威基准，充分证明了 OpenAudio S1 在音质和综合表现上的卓越性。
高级语音控制： OpenAudio S1 不仅限于基础的文本转语音，更提供了对语音输出的精细化控制。用户可以轻松注入喜怒哀乐等多种情绪（如 (愤怒)、(悲伤)、(兴奋)）、语调（如 (急促的语气)、(耳语)），甚至加入笑声（如 (大笑)、(咯咯笑)）和叹息（如 (叹气)）等特殊音效，实现富有表现力且细致入微的语音生成。
零样本与少样本语音克隆： 该系统仅需 10-30 秒的语音样本即可实现高质量语音克隆，能够以目标声音生成高保真度的 TTS 输出。这一功能极大地降低了定制语音合成的门槛。
多语言及跨语言能力： OpenAudio 支持多种语言的文本处理，包括英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。其强大的泛化能力，使其无需依赖音素即可处理不同语言的文本脚本。
高效快速的推理： 经过 torch compile 优化后，模型在 Nvidia RTX 4090 GPU 上可实现约 1:7 的实时因子（RTF），确保了语音生成的速度和响应性。
便捷易用的用户界面： OpenAudio 提供了基于 Gradio 的 WebUI，方便用户在浏览器中进行推理；同时也有基于 PyQt6 的 GUI 桌面应用，支持 Windows、Linux 和 macOS 等操作系统。此外，通过原生推理服务器，部署也更为简便。

模型可用性：

OpenAudio S1： 拥有 40 亿参数的旗舰模型，可在 fish.audio 网站上获取。
OpenAudio S1-mini： 经过蒸馏的轻量级模型，拥有 5 亿参数，专注于核心能力优化，可在 Hugging Face Spaces 上获取。

两个模型均集成了在线强化学习（RLHF），进一步优化了输出质量。凭借强大的社区支持、详尽的文档以及持续的代码提交和版本发布，OpenAudio（前身为 Fish-Speech）强烈推荐给所有关注前沿语音合成技术的用户。欢迎前往 GitHub 探索该项目，贡献代码或将强大的功能集成到您的应用程序中。

原始文章: 查看原文

Fish-Speech 现已更名为 OpenAudio：开启下一代语音合成新篇章

OpenAudio（原 Fish-Speech）核心亮点：

模型可用性：

分享这篇文章