tts - 开源项目

VoxCPM2：2B多语言TTS，支持语音克隆与设计

April 12, 2026

标签:

Open Source tts Voice Cloning Multilingual Voice Design

发现VoxCPM2，这款开创性的2B参数无分词器TTS模型，支持30种语言，提供录音棚品质的48kHz音频。从文本描述创建语音，完美保真克隆任意说话人，实现实时性能（RTX 4090上RTF 0.13）。完全开源，Apache 2.0许可，提供Python API、CLI、Web Demo、LoRA微调和生产部署就绪。在主要TTS基准测试中超越商业模型。

阅读更多原始

实用开源项目

VibeVoice：Microsoft 的开源语音 AI 套件

March 15, 2026

标签:

Open Source Microsoft tts Voice AI ASR

探索 VibeVoice，Microsoft 的前沿开源工具包，为开发者与研究人员提供长时段 ASR、多说话人 TTS 与实时流式处理。了解如何利用其 60 分钟 ASR 流程、90 分钟 TTS 以及轻量级实时模型，并探索与 Hugging Face Transformers 的集成，实现无缝部署。

阅读更多原始

实用开源项目

Pixelle-Video：AI从文本自动生成短视频

March 06, 2026

标签:

Open Source tts AI Video Generation ComfyUI automated video

发现Pixelle-Video，开源AI引擎，将单一主题转化为完整短视频。无需剪辑技能！它自动撰写脚本、生成AI图像/视频、添加TTS配音、背景音乐，并导出精美视频。具备Web UI、Windows一键包、ComfyUI集成，以及数字人体化身和动作迁移等模块。完美适用于创作者、营销人员和教育者。

阅读更多原始

实用开源项目

JJYB_AI VideoAutoCut：开源 AI 视频编辑工具包

January 29, 2026

标签:

Open Source Python tts ai-video-editing Flask

发现 JJYB_AI VideoAutoCut（v2.0），这是一套完整的 AI 驱动视频编辑套件，自动剪辑、添加旁白并利用 19 种语言模型、6 种视觉模型以及 4 种 TTS 引擎进行 AI 配音——全部封装在简洁的 Flask Web 界面中。学习如何在 Windows 或 macOS 上安装、配置并部署此 Python 强化解决方案，零手动编辑即可开始制作专业视频。

阅读更多原始

实用开源项目

Qwen3‑ＴTS：快速、开源流式 TTS

January 25, 2026

标签:

Open Source AI tts Speech Synthesis Alibaba Cloud

探索阿里巴巴的 Qwen3‑TTS，这是一款开源、低延迟的语音合成框架，支持完整语言覆盖、语音克隆与自然语言控制的语音设计。本指南将带您了解模型、架构、快速启动安装以及真实代码示例。无论您是在构建聊天机器人、有声读物还是多语言语音助手，Qwen3‑TTS 都提供灵活、云友好的解决方案，整合了 Hugging Face 与 ModelScope。深入仓库，学习如何生成定制语音、克隆说话者并针对您的数据进行微调。文章还重点展示了性能指标、评估结果，以及针对本地和边缘设备的实用部署建议。

阅读更多原始

实用开源项目

Pocket‑TTS：轻量级CPU专用文本转语音库

January 19, 2026

标签:

Open Source Python tts Voice Cloning CPU

探索 Pocket‑TTS：一款极度紧凑、CPU 友好的 TTS 解决方案，消除了对 GPU 和网络 API 的依赖。学习如何用一次 pip 或 uv 命令安装，使用 wav 文件克隆语音，启动本地 HTTP 服务器实现即时音频流，并将其集成到 Python 项目或 Colab 笔记本。配备 100M 参数模型，运行于 2 核 CPU，可实现约 200 ms 的延迟和 6 倍实时速度。该指南涵盖了安装、语音管理、命令行使用和最佳实践，适合希望在小型设备或边缘环境中嵌入 TTS 的开发者和爱好者。

阅读更多原始

实用开源项目

NeuTTS Air：即时克隆的端侧语音AI

October 23, 2025

标签:

Open Source tts Voice Cloning Voice AI On-device AI

隆重推出 NeuTTS Air，一款由 Neuphonic 带来、突破性的开源设备端文本转语音 (TTS) 模型。这款创新的人工智能技术Directly allows you to achieve超逼真的语音合成和即时语音克隆，无论是在手机还是树莓派等本地设备上。了解 NeuTTS Air 如何利用 0.5B 大语言模型骨干生成自然语音，实现实时性能，并内置安全功能。探索其主要特性、支持的语言、为提高效率而采用的 GGML 格式，以及快速入门指南，以便将这款强大的语音 AI 融入您的项目中。

阅读更多原始

实用开源项目

IndexTTS：先进的开源TTS系统详解

July 29, 2025

标签:

Open Source AI tts Speech Synthesis IndexTTS

探索 IndexTTS，一款可与甚至超越主流文本转语音（TTS）解决方案的工业级TTS系统。该开源项目基于 XTTS 和 Tortoise 构建，提供了对语音的卓越控制能力，包括中文字词的读音校正和精确的停顿管理。文章详细介绍了其在说话人条件控制、通过 BigVGAN2 提升的音质以及零样本语音克隆方面的进阶功能，并给出了与 XTTS、CosyVoice2 和 F5-TTS 等领先竞争对手的性能对比基准。该代码库提供了详尽的设置、推理指南，甚至还有一个网络演示，使其成为寻求集成高质量、可控语音合成的开发者和AI爱好者的宝贵资源。深入了解其功能并学习如何在您的项目中实现它。

阅读更多原始

实用开源项目

MegaTTS3：具有语音克隆功能的高级开源文本转语音（TTS）

July 29, 2025

标签:

Open Source AI tts Voice Cloning PyTorch

探索MegaTTS3，一款由字节跳动开发的尖端开源文本转语音模型。这款PyTorch实现拥有轻量级而强大的架构，具备出色的声音克隆能力，并支持中文和英文的双语功能。通过其可控生成，包括口音强度和细粒度发音调整（即将推出），MegaTTS3提供了令人印象深刻的灵活性。该项目提供了在Linux、Windows和Docker上安装的详细说明，以及命令行和Web UI推理的清晰使用示例。发掘其在高质量、高效率语音合成方面所蕴含的潜力。

阅读更多原始

实用开源项目

鱼语：先进的开源语音合成系统

July 29, 2025

标签:

Open Source AI Development tts Speech Synthesis Voice Cloning

探索 Fish-Speech，一款最先进的开源多语言文本转语音（TTS）系统，现已更名为 OpenAudio。这个强大的项目提供了卓越的 TTS 质量、语音克隆能力以及广泛的语言支持，使其成为开发人员和研究人员宝贵的资源。凭借零样本（zero-shot）和少样本（few-shot）TTS、可自定义的情感和语调语音控制，以及通过 WebUI 和 GUI 轻松部署等功能，Fish-Speech (OpenAudio) 正在为合成语音生成设定新的标杆。了解其先进的模型，如 OpenAudio S1 和 S1-mini，它们的出色性能指标，以及如何将它们集成到您的项目中。本指南将深入探讨该项目的亮点、技术细节以及激动人心的语音人工智能（Speech-AI）未来。

阅读更多原始

分类

标记为的帖子: tts

VoxCPM2：2B多语言TTS，支持语音克隆与设计

VibeVoice：Microsoft 的开源语音 AI 套件

Pixelle-Video：AI从文本自动生成短视频

JJYB_AI VideoAutoCut：开源 AI 视频编辑工具包

Qwen3‑ＴTS：快速、开源流式 TTS

Pocket‑TTS：轻量级CPU专用文本转语音库

NeuTTS Air：即时克隆的端侧语音AI

IndexTTS：先进的开源TTS系统详解

MegaTTS3：具有语音克隆功能的高级开源文本转语音（TTS）

鱼语：先进的开源语音合成系统