NeuTTS Air:即时克隆的端侧语音AI
NeuTTS Air:革新端侧语音AI
长期以来,尖端语音AI一直局限于网络API,这限制了其可访问性和潜力。Neuphonic 的 NeuTTS Air 打破了这些障碍,推出了全球首款超真实、端侧的文本到语音(TTS)语音语言模型,并具备即时语音克隆功能。
NeuTTS Air 基于强大的 0.5B 大语言模型骨干,直接在您的本地设备上提供自然发音的语音、实时性能和集成安全功能。这项创新为嵌入式语音代理、智能助手、交互式玩具以及需要符合法规、离线语音合成的应用开启了一个新时代。
NeuTTS Air 的主要特点:
- 无与伦比的真实感: 产生极其自然和超逼真的声音,为端侧 TTS 树立了新标准。其在本地处理能力和模型大小下,实现了卓越的人声质量。
- 专为端侧部署优化: NeuTTS Air 提供高效的 GGML 格式,旨在在各种设备上无缝运行,包括智能手机、笔记本电脑,甚至像树莓派这样资源受限的平台。
- 即时语音克隆: 仅需 3 秒钟的音频,您就可以创建一个个性化的发音人,实现动态和定制化的语音交互。
- 高效架构: 利用基于 0.5B 骨干的简单 LM + 编解码器架构,它在速度、大小和音频质量之间取得了完美平衡,使其成为实际应用的理想选择。
- 先进音频编解码器: 采用 NeuCodec,这是一种专有的 50Hz 神经音频编解码器,通过单个码本在低比特率下确保卓越的音频保真度。
- 水印输出: 为了负责任地使用 AI,NeuTTS Air 生成的每个音频文件都包含一个 Perth(感知阈值)水印,以确保AI技术的规范使用。
技术规格:
- 支持语言: 目前主要支持英语。
- 上下文窗口: 2048 个 token 的上下文窗口可以处理大约 30 秒的音频,包括提示持续时间。
- 推理速度: 在中端设备上实现实时生成。
- 功耗: 针对移动和嵌入式设备进行了优化,确保能源效率。
NeuTTS Air 快速入门:
将 NeuTTS Air 集成到您的项目中非常简单。项目提供了清晰的指南,包括克隆存储库、安装必要的依赖项(如 espeak)以及设置 Python 环境。
用户可以运行基本示例,用自定义文本和参考音频合成语音。此外,NeuTTS Air 支持流式模式,用于分块生成音频,提供动态的用户体验。
快速入门指南:
- 克隆存储库:
git clone https://github.com/neuphonic/neutts-air.git cd neutts-air - 安装 espeak: 遵循平台特定说明(例如,macOS 为
brew install espeak,Ubuntu/Debian 为sudo apt install espeak)。 - 安装 Python 依赖项:
pip install -r requirements.txt - (可选)GGUF 支持: 安装
llama-cpp-python以支持 GGUF 模型。 - (可选)ONNX 解码器: 安装
onnxruntime以使用 ONNX 解码器。
项目 README 中提供了运行模型、利用流媒体功能以及准备最佳参考音频进行克隆的详细说明。
负责任的 AI 和未来发展:
Neuphonic 强调负责任地使用 NeuTTS Air,并致力于构建更快、更小、更符合道德规范的端侧语音 AI 解决方案。他们鼓励开发者在部署这项强大技术时贡献力量并遵守道德准则。
NeuTTS Air 在使先进语音 AI 可用并能部署到边缘设备方面迈出了重要一步,为无数行业的创新应用铺平了道路。
原创文章:
查看原文