NeuTTS Air:即时克隆的端侧语音AI

NeuTTS Air:革新端侧语音AI

长期以来,尖端语音AI一直局限于网络API,这限制了其可访问性和潜力。Neuphonic 的 NeuTTS Air 打破了这些障碍,推出了全球首款超真实、端侧的文本到语音(TTS)语音语言模型,并具备即时语音克隆功能。

NeuTTS Air 基于强大的 0.5B 大语言模型骨干,直接在您的本地设备上提供自然发音的语音、实时性能和集成安全功能。这项创新为嵌入式语音代理、智能助手、交互式玩具以及需要符合法规、离线语音合成的应用开启了一个新时代。

NeuTTS Air 的主要特点:

  • 无与伦比的真实感: 产生极其自然和超逼真的声音,为端侧 TTS 树立了新标准。其在本地处理能力和模型大小下,实现了卓越的人声质量。
  • 专为端侧部署优化: NeuTTS Air 提供高效的 GGML 格式,旨在在各种设备上无缝运行,包括智能手机、笔记本电脑,甚至像树莓派这样资源受限的平台。
  • 即时语音克隆: 仅需 3 秒钟的音频,您就可以创建一个个性化的发音人,实现动态和定制化的语音交互。
  • 高效架构: 利用基于 0.5B 骨干的简单 LM + 编解码器架构,它在速度、大小和音频质量之间取得了完美平衡,使其成为实际应用的理想选择。
  • 先进音频编解码器: 采用 NeuCodec,这是一种专有的 50Hz 神经音频编解码器,通过单个码本在低比特率下确保卓越的音频保真度。
  • 水印输出: 为了负责任地使用 AI,NeuTTS Air 生成的每个音频文件都包含一个 Perth(感知阈值)水印,以确保AI技术的规范使用。

技术规格:

  • 支持语言: 目前主要支持英语。
  • 上下文窗口: 2048 个 token 的上下文窗口可以处理大约 30 秒的音频,包括提示持续时间。
  • 推理速度: 在中端设备上实现实时生成。
  • 功耗: 针对移动和嵌入式设备进行了优化,确保能源效率。

NeuTTS Air 快速入门:

将 NeuTTS Air 集成到您的项目中非常简单。项目提供了清晰的指南,包括克隆存储库、安装必要的依赖项(如 espeak)以及设置 Python 环境。

用户可以运行基本示例,用自定义文本和参考音频合成语音。此外,NeuTTS Air 支持流式模式,用于分块生成音频,提供动态的用户体验。

快速入门指南:

  1. 克隆存储库:
    git clone https://github.com/neuphonic/neutts-air.git
    cd neutts-air
    
  2. 安装 espeak: 遵循平台特定说明(例如,macOS 为 brew install espeak,Ubuntu/Debian 为 sudo apt install espeak)。
  3. 安装 Python 依赖项:
    pip install -r requirements.txt
    
  4. (可选)GGUF 支持: 安装 llama-cpp-python 以支持 GGUF 模型。
  5. (可选)ONNX 解码器: 安装 onnxruntime 以使用 ONNX 解码器。

项目 README 中提供了运行模型、利用流媒体功能以及准备最佳参考音频进行克隆的详细说明。

负责任的 AI 和未来发展:

Neuphonic 强调负责任地使用 NeuTTS Air,并致力于构建更快、更小、更符合道德规范的端侧语音 AI 解决方案。他们鼓励开发者在部署这项强大技术时贡献力量并遵守道德准则。

NeuTTS Air 在使先进语音 AI 可用并能部署到边缘设备方面迈出了重要一步,为无数行业的创新应用铺平了道路。

原创文章: 查看原文

分享本文