NeuTTS Air：即时克隆的端侧语音AI

October 23, 2025

分类: 实用开源项目

标签:

NeuTTS Air：革新端侧语音AI

长期以来，尖端语音AI一直局限于网络API，这限制了其可访问性和潜力。Neuphonic 的 NeuTTS Air 打破了这些障碍，推出了全球首款超真实、端侧的文本到语音（TTS）语音语言模型，并具备即时语音克隆功能。

NeuTTS Air 基于强大的 0.5B 大语言模型骨干，直接在您的本地设备上提供自然发音的语音、实时性能和集成安全功能。这项创新为嵌入式语音代理、智能助手、交互式玩具以及需要符合法规、离线语音合成的应用开启了一个新时代。

无与伦比的真实感： 产生极其自然和超逼真的声音，为端侧 TTS 树立了新标准。其在本地处理能力和模型大小下，实现了卓越的人声质量。
专为端侧部署优化： NeuTTS Air 提供高效的 GGML 格式，旨在在各种设备上无缝运行，包括智能手机、笔记本电脑，甚至像树莓派这样资源受限的平台。
即时语音克隆： 仅需 3 秒钟的音频，您就可以创建一个个性化的发音人，实现动态和定制化的语音交互。
高效架构： 利用基于 0.5B 骨干的简单 LM + 编解码器架构，它在速度、大小和音频质量之间取得了完美平衡，使其成为实际应用的理想选择。
先进音频编解码器： 采用 NeuCodec，这是一种专有的 50Hz 神经音频编解码器，通过单个码本在低比特率下确保卓越的音频保真度。
水印输出： 为了负责任地使用 AI，NeuTTS Air 生成的每个音频文件都包含一个 Perth（感知阈值）水印，以确保AI技术的规范使用。

将 NeuTTS Air 集成到您的项目中非常简单。项目提供了清晰的指南，包括克隆存储库、安装必要的依赖项（如 espeak）以及设置 Python 环境。

用户可以运行基本示例，用自定义文本和参考音频合成语音。此外，NeuTTS Air 支持流式模式，用于分块生成音频，提供动态的用户体验。

快速入门指南：

克隆存储库：

git clone https://github.com/neuphonic/neutts-air.git
cd neutts-air

安装 espeak： 遵循平台特定说明（例如，macOS 为 brew install espeak，Ubuntu/Debian 为 sudo apt install espeak）。
安装 Python 依赖项：
```
pip install -r requirements.txt
```
（可选）GGUF 支持： 安装 llama-cpp-python 以支持 GGUF 模型。
（可选）ONNX 解码器： 安装 onnxruntime 以使用 ONNX 解码器。

项目 README 中提供了运行模型、利用流媒体功能以及准备最佳参考音频进行克隆的详细说明。

Neuphonic 强调负责任地使用 NeuTTS Air，并致力于构建更快、更小、更符合道德规范的端侧语音 AI 解决方案。他们鼓励开发者在部署这项强大技术时贡献力量并遵守道德准则。

NeuTTS Air 在使先进语音 AI 可用并能部署到边缘设备方面迈出了重要一步，为无数行业的创新应用铺平了道路。

原始文章: 查看原文