语音与音频 AI | AIBit-探索开源项目

2026年6月6日

Miso TTS 8B：高质量开源文本转语音模型

Miso TTS 8B 是一款拥有80亿参数、最先进的开源文本转语音模型，具备高度情感化的语音生成和声音克隆能力。

2026年5月24日

Voice-Pro：一款开源的全能AI音频与配音套件

Voice-Pro 是一个强大的、基于 Gradio 的开源 WebUI，它将最先进的语音克隆、转录和翻译工具整合到一个工作流程中。
2026年5月21日

OpenLess：面向开发者的开源 AI 语音输入工具

停止打字，开始说话。OpenLess 是一款跨平台、注重隐私的工具，可将你的语音直接转化为结构化、经 AI 润色的文本，并自动输入到光标所在位置。
2026年5月14日

Supertonic：闪电般快速的端侧多语言语音合成系统

探索 Supertonic，这是一款功能强大的开源语音合成系统，可将高质量的多语言语音合成直接带到您的设备上。通过利用 ONNX Runtime，Supertonic 消除了对云 API 的需求，确保了完全的隐私和近乎即时的性能。无论您是使用 Python、C++、Rust 还是 Web 技术的开发者，这款轻量级引擎都提供 31 种语言支持，并对复杂文本具有卓越的阅读准确性。了解这款 99M 参数的模型如何在速度和效率上超越大型替代方案，使其成为边缘计算、移动应用和基于浏览器的项目的完美选择。立即探索本地、私密且闪电般快速的语音生成未来。
2026年4月12日

VoxCPM2：2B多语言TTS，支持语音克隆与设计

发现VoxCPM2，这款开创性的2B参数无分词器TTS模型，支持30种语言，提供录音棚品质的48kHz音频。从文本描述创建语音，完美保真克隆任意说话人，实现实时性能（RTX 4090上RTF 0.13）。完全开源，Apache 2.0许可，提供Python API、CLI、Web Demo、LoRA微调和生产部署就绪。在主要TTS基准测试中超越商业模型。
2026年4月9日

SpeechRecognition：终极 Python 语音转文本库

发现 SpeechRecognition，这是最全面的 Python 语音转文本库。支持离线引擎如 CMU Sphinx、Vosk 和 OpenAI Whisper，以及来自 Google、OpenAI、Groq 和 Cohere 的云 API。只需一个 pip 命令即可安装，即可立即转录麦克风输入或音频文件。完美适用于语音助手、转录应用和会议录音器。包含 PyAudio、PocketSphinx 的详细设置指南和故障排除提示。
2026年3月15日

VoiceChanger：开源实时语音转换

了解 VoiceChanger 如何让你实时使用尖端 AI 模型（如 Beatrice 和 RVC）来变换语音。本开源项目提供跨平台 GUI、Docker 支持、网络模式以及 AMD Linux 和 Google Colab 的教程。无论你是游戏开发者、主播还是爱好者，学习如何在数分钟内安装、配置并升级软件，探索实时语音操控的激动人心世界。
2026年3月15日

VibeVoice：Microsoft 的开源语音 AI 套件

探索 VibeVoice，Microsoft 的前沿开源工具包，为开发者与研究人员提供长时段 ASR、多说话人 TTS 与实时流式处理。了解如何利用其 60 分钟 ASR 流程、90 分钟 TTS 以及轻量级实时模型，并探索与 Hugging Face Transformers 的集成，实现无缝部署。
2026年3月13日

RCLI：面向 macOS 的本地语音 AI——零云、极速

RCLI 将您的 Mac 转变为功能齐全的本地语音助手与文档浏览器。借助 Apple Silicon 的 MetalRT GPU 引擎，它在本地运行业内尖端的 STT、LLM 与 TTS——完全无云、无 API 密钥。了解如何通过 Homebrew 安装，控制 38 种 macOS 操作，使用低于 4 ms 的 RAG 索引 PDF，并对比 MetalRT 与 llama.cpp 的性能。无论您是开发者、重度用户还是 AI 爱好者，RCLI 都以最前沿的本地 AI 为您的桌面带来极简设置体验。发现为什么该仓库是任何想构建语音驱动 macOS 工具的人的必试之选。
2026年3月11日

LiveTalking：实时 AI 数字人，支持唇同步

发现 LiveTalking，开源强大工具，用于创建实时互动数字人。该 Python 项目支持多种模型（wav2lip、musetalk、ernerf），具备声音克隆、WebRTC 流媒体和中断处理功能。通过 Docker 部署，在 GPU 上运行 60+ FPS 性能，创建商业级说话头像。完美适用于 streamer、教育者和寻求生产就绪唇同步解决方案的 AI 开发者。
2026年2月12日

用 Voxtral Mini 在 Rust 中构建实时语音识别

发现如何将 4B 参数、开源模型变为轻量级、无依赖的语音识别器，可在本机或浏览器本地运行。本指南涵盖 Rust 编译、WASM/WebGPU 打包、模型量化和实时演示—只需几条指令即可获得高性能、低延迟转录。
2026年2月10日

Faster Whisper ChickenRice：日语-中文转录

发现 ChickenRice，一款基于 Faster Whisper 的开源、GPU 加速转录与翻译工具。它能将日语音频或视频直接转换为 SRT、VTT 或 LRC 格式的中文字幕，并可通过 Modal 进行可选的云端推理。了解如何安装、选择合适的 CUDA 版本、运行本地 bat 脚本或在无 GPU 环境下启动 Modal，以及使用高级设置自定义输出 —— 所有这些都保持顶级性能并采用 MIT 许可证。